Dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

Trong bài viết này, SciEco cung cấp nội dung về dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

Dữ liệu bảng

Nhìn chung, dữ liệu khi phân tích thực nghiệm bao gồm ba loại:

Dữ liệu chéo (Cross-sectional data): Phân tích nhiều đối tượng tại một thời điểm cụ thể.
Dữ liệu chuỗi thời gian (Time-series data): Phân tích một đối tượng tại nhiều thời điểm khác nhau.
Dữ liệu bảng (Panel data): Phân tích nhiều đối tượng tại nhiều thời điểm khác nhau.

Ví dụ: Phân tích về phát triển năng lượng tái tạo ảnh hưởng tới giảm thiểu phát thải khí nhà kính tại các quốc gia Châu Á – Thái Bình Dương trong giai đoạn 2001 – 2021.

So với dữ liệu chéo và dữ liệu chuỗi thời gian, dữ liệu bảng có một số ưu điểm như sau:

Khi dữ liệu được thu thập theo thời gian của các đối tượng chéo (quốc gia, doanh nghiệp, cá nhân…), các đối tượng chéo này có thể khác nhau về một số khía cạnh (kích thước, ví trí địa lý, cấu trúc tổ chức…) – hay còn gọi là tính không đồng nhất. Khi ước lượng dữ liệu bảng, tính không đồng nhất này được xem xét bằng các yếu tố đại diện cho từng đối tượng (đây là ý tưởng của phương pháp ước lượng hiệu ứng cố định, sẽ được đội ngũ SciEco phân tích chi tiết trong các bài viết sau).
Khi xem xét nhiều đối tượng theo thời gian, dữ liệu bảng cung cấp nhiều thông tin hơn. Ngoài ra, khi thông tin được cung cấp dạng, nhiều quan sát hơn, hiện tượng đa cộng tuyến hạn chế xuất hiện, nhiều bậc tự do trong hơn trong các phép tính toán.
Khi những thay đổi theo thời gian của các đối tượng được xem xét, dữ liệu bảng cho phép nghiên cứu tính động của dữ liệu. Thuật ngữ thường được sử dụng là “ước lượng dữ liệu bảng động – dynamic panel”.

Thiết lập dữ liệu bảng cân bằng (balanced panel data)

Mô hình với dữ liệu bảng:

Y_{it}=\beta_0+\beta_1X_{1it}+\beta_2X_{2it}+u_{it}

Trong đó, i biểu diễn từng đối tượng chéo (chiều không gian), t biểu diễn cho chiều thời gian. Như vậy, với dữ liệu có tối đa N đối tượng chéo, T thời điểm, mỗi đối tượng chéo đều được quan sát ở T thời điểm như nhau theo thời gian, dữ liệu được gọi là dữ liệu bảng cân bằng. Ngược lại, số lượng thời điểm quan sát giữa các đối tượng chéo không đồng nhất, đây là dữ liệu bảng không cân bằng.

Dữ liệu bảng cân bằng được ưu tiên lựa chọn do các đối tượng chéo được quan sát khách quan ở các thời điểm tương đồng với nhau. Trong quá trình ước lượng và kiểm định, một số kiểm định, phương pháp ước lượng không áp dụng được đối với dữ liệu bảng không cân bằng.

Trong quá trình tổng hợp dữ liệu, phần lớn các dữ liệu tổng hợp sẽ không cân bằng. Để đưa dữ liệu về cân bằng, các đối tượng chéo không có đủ số quan sát sẽ được xóa đi. Thực hiện tạo biến đếm số quan cho từng đối tượng chéo, các đối tượng có quan sát không đúng kỳ vọng sẽ được loại bỏ theo biến đếm vừa tạo.

Thực hiện trên STATA như sau:

1sort CountryCode year //Sắp xếp dữ liệu
2by CountryCode: gen count=_N //Tạo biến đếm theo từng quốc gia
3drop if count!=21 //Xóa các quan sát có quốc gia không đủ số quan sát theo thời gian
4drop count //Xóa biến đếm vừa tạo

Dữ liệu trong trường hợp này này bao gồm nhiều quốc gia, nghiên cứu trong giai đoạn 2001 – 2021. Các quan sát của các quốc gia không đủ dữ liệu 21 năm sẽ được loại bỏ. Một số lưu ý, trong thực hiện các câu lệnh có chứa “by”, cần thực hiện lệnh “sort” liền trước. Lệnh “bysort” không nên được thực hiện do đang thực hiện với dữ liệu bảng, chứa cả chiều không gian và thời gian, “bysort” chỉ giúp sắp xếp dữ liệu theo một chiều (ở đây là CountryCode).

Trong quá trình khai báo dữ liệu bảng, cần tạo biến numeric (dữ liệu dạng số) nhận để STATA nhận diện các đối tượng chéo do thông thương các đối tượng chéo thường ở dạng string (dữ liệu dạng chuỗi). Câu lệnh thực hiện như sau:

1Egen ID=group(CountryCode) //Tạo biến numeric nhận diện các đối tượng chéo
2Xtset ID year //Khai báo dữ liệu bảng