messenger_logo
Liên hệ qua Messenger
SciEco

Dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

NH
Nguyễn Hữu Kiên
Ngày viết: 28/08/2023

Trong bài viết này, SciEco cung cấp nội dung về dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

Dữ liệu bảng

Nhìn chung, dữ liệu khi phân tích thực nghiệm bao gồm ba loại:

Ví dụ: Phân tích về phát triển năng lượng tái tạo ảnh hưởng tới giảm thiểu phát thải khí nhà kính tại các quốc gia Châu Á – Thái Bình Dương trong giai đoạn 2001 – 2021.

So với dữ liệu chéo và dữ liệu chuỗi thời gian, dữ liệu bảng có một số ưu điểm như sau:

Thiết lập dữ liệu bảng cân bằng (balanced panel data)

Mô hình với dữ liệu bảng:

Yit=β0+β1X1it+β2X2it+uitY_{it}=\beta_0+\beta_1X_{1it}+\beta_2X_{2it}+u_{it}

Trong đó, i biểu diễn từng đối tượng chéo (chiều không gian), t biểu diễn cho chiều thời gian. Như vậy, với dữ liệu có tối đa N đối tượng chéo, T thời điểm, mỗi đối tượng chéo đều được quan sát ở T thời điểm như nhau theo thời gian, dữ liệu được gọi là dữ liệu bảng cân bằng. Ngược lại, số lượng thời điểm quan sát giữa các đối tượng chéo không đồng nhất, đây là dữ liệu bảng không cân bằng.

Dữ liệu bảng cân bằng được ưu tiên lựa chọn do các đối tượng chéo được quan sát khách quan ở các thời điểm tương đồng với nhau. Trong quá trình ước lượng và kiểm định, một số kiểm định, phương pháp ước lượng không áp dụng được đối với dữ liệu bảng không cân bằng.

Trong quá trình tổng hợp dữ liệu, phần lớn các dữ liệu tổng hợp sẽ không cân bằng. Để đưa dữ liệu về cân bằng, các đối tượng chéo không có đủ số quan sát sẽ được xóa đi. Thực hiện tạo biến đếm số quan cho từng đối tượng chéo, các đối tượng có quan sát không đúng kỳ vọng sẽ được loại bỏ theo biến đếm vừa tạo.

Thực hiện trên STATA như sau:

1sort CountryCode year //Sắp xếp dữ liệu
2by CountryCode: gen count=_N //Tạo biến đếm theo từng quốc gia
3drop if count!=21 //Xóa các quan sát có quốc gia không đủ số quan sát theo thời gian
4drop count //Xóa biến đếm vừa tạo

Dữ liệu trong trường hợp này này bao gồm nhiều quốc gia, nghiên cứu trong giai đoạn 2001 – 2021. Các quan sát của các quốc gia không đủ dữ liệu 21 năm sẽ được loại bỏ. Một số lưu ý, trong thực hiện các câu lệnh có chứa “by”, cần thực hiện lệnh “sort” liền trước. Lệnh “bysort” không nên được thực hiện do đang thực hiện với dữ liệu bảng, chứa cả chiều không gian và thời gian, “bysort” chỉ giúp sắp xếp dữ liệu theo một chiều (ở đây là CountryCode).

Trong quá trình khai báo dữ liệu bảng, cần tạo biến numeric (dữ liệu dạng số) nhận để STATA nhận diện các đối tượng chéo do thông thương các đối tượng chéo thường ở dạng string (dữ liệu dạng chuỗi). Câu lệnh thực hiện như sau:

1Egen ID=group(CountryCode) //Tạo biến numeric nhận diện các đối tượng chéo
2Xtset ID year //Khai báo dữ liệu bảng

Bài viết khác
1. Giới thiệu Phân cụm đồ thị (K-means Clustering) là quá trình phân chia hoặc tách biệt dữ liệu theo các nhóm dựa trên các đặc điểm chung sau đó được biểu thị qua một đồ thị. Phù hợp với những công việc cần phân khúc các tệp khách hàng trong thương mại, phân tích thị trường. Điều này giúp các công ty hiểu rõ hơn về sở thích và nhu cầu của từng nhóm, qua đó đưa ra chiến lược marketing phù hợp. Trong thuật toán phân cụm, K-means là một thuật toán phân cụm đơn giản và phổ biến trong học máy (machine learning) để phân cụm các điểm dữ liệu thành các nhóm riêng biệt dựa trên các đặc điểm của chúng. Thuật toán này dùng để chia dữ liệu thành các nhóm dựa trên khoảng cách giữa các điểm dữ liệu với nhau. 2. Ta cài đặt những thư viện sau
Trong thời đại của số hóa và khoa học dữ liệu lên ngôi, khả năng phân tích, giải mã và trích xuất thông tin hữu ích từ khối lượng dữ liệu khổng lồ là một kỹ năng không thể thiếu để giúp bạn thích nghi với yêu cầu của công việc! Đặc biệt, với việc làm chủ STATA, phần mềm phân tích dữ liệu có giao diện thân thiện và khả năng xử lý dữ liệu mạnh mẽ sẽ là công cụ đắc lực cho bạn. Để có thể giúp bạn chinh phục STATA, SciEco ở đây để mang đến cho bạn khóa học STATA đầy hấp dẫn: Nội dung khóa học chi tiết: Bài 1: Giới thiệu về STATA và VES
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội