messenger_logo
Liên hệ qua Messenger
SciEco

Dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

NH
Nguyễn Hữu Kiên
Ngày viết: 28/08/2023

Trong bài viết này, SciEco cung cấp nội dung về dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

Dữ liệu bảng

Nhìn chung, dữ liệu khi phân tích thực nghiệm bao gồm ba loại:

Ví dụ: Phân tích về phát triển năng lượng tái tạo ảnh hưởng tới giảm thiểu phát thải khí nhà kính tại các quốc gia Châu Á – Thái Bình Dương trong giai đoạn 2001 – 2021.

So với dữ liệu chéo và dữ liệu chuỗi thời gian, dữ liệu bảng có một số ưu điểm như sau:

Thiết lập dữ liệu bảng cân bằng (balanced panel data)

Mô hình với dữ liệu bảng:

Yit=β0+β1X1it+β2X2it+uitY_{it}=\beta_0+\beta_1X_{1it}+\beta_2X_{2it}+u_{it}

Trong đó, i biểu diễn từng đối tượng chéo (chiều không gian), t biểu diễn cho chiều thời gian. Như vậy, với dữ liệu có tối đa N đối tượng chéo, T thời điểm, mỗi đối tượng chéo đều được quan sát ở T thời điểm như nhau theo thời gian, dữ liệu được gọi là dữ liệu bảng cân bằng. Ngược lại, số lượng thời điểm quan sát giữa các đối tượng chéo không đồng nhất, đây là dữ liệu bảng không cân bằng.

Dữ liệu bảng cân bằng được ưu tiên lựa chọn do các đối tượng chéo được quan sát khách quan ở các thời điểm tương đồng với nhau. Trong quá trình ước lượng và kiểm định, một số kiểm định, phương pháp ước lượng không áp dụng được đối với dữ liệu bảng không cân bằng.

Trong quá trình tổng hợp dữ liệu, phần lớn các dữ liệu tổng hợp sẽ không cân bằng. Để đưa dữ liệu về cân bằng, các đối tượng chéo không có đủ số quan sát sẽ được xóa đi. Thực hiện tạo biến đếm số quan cho từng đối tượng chéo, các đối tượng có quan sát không đúng kỳ vọng sẽ được loại bỏ theo biến đếm vừa tạo.

Thực hiện trên STATA như sau:

1sort CountryCode year //Sắp xếp dữ liệu
2by CountryCode: gen count=_N //Tạo biến đếm theo từng quốc gia
3drop if count!=21 //Xóa các quan sát có quốc gia không đủ số quan sát theo thời gian
4drop count //Xóa biến đếm vừa tạo

Dữ liệu trong trường hợp này này bao gồm nhiều quốc gia, nghiên cứu trong giai đoạn 2001 – 2021. Các quan sát của các quốc gia không đủ dữ liệu 21 năm sẽ được loại bỏ. Một số lưu ý, trong thực hiện các câu lệnh có chứa “by”, cần thực hiện lệnh “sort” liền trước. Lệnh “bysort” không nên được thực hiện do đang thực hiện với dữ liệu bảng, chứa cả chiều không gian và thời gian, “bysort” chỉ giúp sắp xếp dữ liệu theo một chiều (ở đây là CountryCode).

Trong quá trình khai báo dữ liệu bảng, cần tạo biến numeric (dữ liệu dạng số) nhận để STATA nhận diện các đối tượng chéo do thông thương các đối tượng chéo thường ở dạng string (dữ liệu dạng chuỗi). Câu lệnh thực hiện như sau:

1Egen ID=group(CountryCode) //Tạo biến numeric nhận diện các đối tượng chéo
2Xtset ID year //Khai báo dữ liệu bảng

Bài viết khác
Trong nghiên cứu thực nghiệm, việc thực hiện nhiều phép so sánh cặp cùng một lúc là vô cùng phổ biến. Tuy nhiên, nếu chúng ta chỉ sử dụng các kiểm định t thông thường mà không hiệu chỉnh, tỷ lệ sai số loại một trên toàn bộ họ kiểm định sẽ tăng lên rất nhanh. Khi đó, việc sử dụng các giá trị p hiệu chỉnh là bắt buộc để đảm bảo tính tin cậy của các kết luận thống kê. Bài viết này sẽ hướng dẫn cách xử lý vấn đề đa so sánh bằng gói lệnh emmeans trong ngôn ngữ R, đồng thời giải thích bản chất thống kê từ phân phối đơn biến đến đa biến. Thực Nghiệm Và Mô Hình Phân Tích Phương Sai Một Chiều Chúng ta sẽ bắt đầu với một bộ dữ liệu thực tế về khả năng diệt cỏ của ba hỗn hợp hóa chất so với nhóm đối chứng không xử lý trên cây cỏ dại thuộc họ cà trong ruộng cà chua. Biến phản hồi là khối lượng của cây cỏ dại trong mỗi chậu, và biến giải thích là các công thức xử lý cỏ.
Trong phân tích tài chính và quản trị rủi ro, việc mô phỏng dữ liệu đồng thời của nhiều tài sản mà vẫn giữ nguyên được cấu trúc phụ thuộc phức tạp là một thách thức lớn. Các phương pháp mô hình hóa truyền thống thường dựa vào giả định phân phối chuẩn, vốn dễ dàng thất bại khi đối mặt với dữ liệu thực tế có phân phối đuôi dày hoặc mối quan hệ phi tuyến. Để giải quyết vấn đề này, phương pháp R-vine copula nổi lên như một công cụ mạnh mẽ, cho phép chúng ta ghép nối các phân phối biên khác nhau thành một phân phối chung một cách linh hoạt. Bài viết này sẽ hướng dẫn cách sử dụng thư viện esgtoolkit trong ngôn ngữ R để xây dựng mô hình R-vine copula và tạo dữ liệu giả lập chất lượng cao. Tìm hiểu về R-vine copula và thư viện esgtoolkit Copula là một hàm toán học dùng để liên kết các phân phối biên của các biến ngẫu nhiên đơn lẻ nhằm tạo ra một phân phối đồng thời. Trong số các cấu trúc copula, vine copula phân rã phân phối đồng thời đa chiều thành các cặp copula hai chiều thông qua một cấu trúc dạng cây liên kết. Điều này giúp kiểm soát tốt các mối quan hệ phụ thuộc không đối xứng ở vùng đuôi, một hiện tượng cực kỳ phổ biến trong dữ liệu tài chính khi thị trường sụt giảm mạnh cùng một lúc. Thư viện esgtoolkit cung cấp một giao diện lập trình trực quan và tối ưu hóa để ước lượng các tham số của mô hình R-vine copula, đồng thời chạy các lượt mô phỏng thử nghiệm để tìm ra bộ dữ liệu giả lập khớp nhất với dữ liệu thực tế.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội