messenger_logo
Liên hệ qua Messenger
SciEco

Dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

NH
Nguyễn Hữu Kiên
Ngày viết: 28/08/2023

Trong bài viết này, SciEco cung cấp nội dung về dữ liệu bảng và thiết lập dữ liệu bảng cân bằng trên STATA

Dữ liệu bảng

Nhìn chung, dữ liệu khi phân tích thực nghiệm bao gồm ba loại:

Ví dụ: Phân tích về phát triển năng lượng tái tạo ảnh hưởng tới giảm thiểu phát thải khí nhà kính tại các quốc gia Châu Á – Thái Bình Dương trong giai đoạn 2001 – 2021.

So với dữ liệu chéo và dữ liệu chuỗi thời gian, dữ liệu bảng có một số ưu điểm như sau:

Thiết lập dữ liệu bảng cân bằng (balanced panel data)

Mô hình với dữ liệu bảng:

Yit=β0+β1X1it+β2X2it+uitY_{it}=\beta_0+\beta_1X_{1it}+\beta_2X_{2it}+u_{it}

Trong đó, i biểu diễn từng đối tượng chéo (chiều không gian), t biểu diễn cho chiều thời gian. Như vậy, với dữ liệu có tối đa N đối tượng chéo, T thời điểm, mỗi đối tượng chéo đều được quan sát ở T thời điểm như nhau theo thời gian, dữ liệu được gọi là dữ liệu bảng cân bằng. Ngược lại, số lượng thời điểm quan sát giữa các đối tượng chéo không đồng nhất, đây là dữ liệu bảng không cân bằng.

Dữ liệu bảng cân bằng được ưu tiên lựa chọn do các đối tượng chéo được quan sát khách quan ở các thời điểm tương đồng với nhau. Trong quá trình ước lượng và kiểm định, một số kiểm định, phương pháp ước lượng không áp dụng được đối với dữ liệu bảng không cân bằng.

Trong quá trình tổng hợp dữ liệu, phần lớn các dữ liệu tổng hợp sẽ không cân bằng. Để đưa dữ liệu về cân bằng, các đối tượng chéo không có đủ số quan sát sẽ được xóa đi. Thực hiện tạo biến đếm số quan cho từng đối tượng chéo, các đối tượng có quan sát không đúng kỳ vọng sẽ được loại bỏ theo biến đếm vừa tạo.

Thực hiện trên STATA như sau:

1sort CountryCode year //Sắp xếp dữ liệu
2by CountryCode: gen count=_N //Tạo biến đếm theo từng quốc gia
3drop if count!=21 //Xóa các quan sát có quốc gia không đủ số quan sát theo thời gian
4drop count //Xóa biến đếm vừa tạo

Dữ liệu trong trường hợp này này bao gồm nhiều quốc gia, nghiên cứu trong giai đoạn 2001 – 2021. Các quan sát của các quốc gia không đủ dữ liệu 21 năm sẽ được loại bỏ. Một số lưu ý, trong thực hiện các câu lệnh có chứa “by”, cần thực hiện lệnh “sort” liền trước. Lệnh “bysort” không nên được thực hiện do đang thực hiện với dữ liệu bảng, chứa cả chiều không gian và thời gian, “bysort” chỉ giúp sắp xếp dữ liệu theo một chiều (ở đây là CountryCode).

Trong quá trình khai báo dữ liệu bảng, cần tạo biến numeric (dữ liệu dạng số) nhận để STATA nhận diện các đối tượng chéo do thông thương các đối tượng chéo thường ở dạng string (dữ liệu dạng chuỗi). Câu lệnh thực hiện như sau:

1Egen ID=group(CountryCode) //Tạo biến numeric nhận diện các đối tượng chéo
2Xtset ID year //Khai báo dữ liệu bảng

Bài viết khác
Trong quá trình phân tích dữ liệu, việc trực quan hóa các dự báo từ mô hình luôn là một thách thức, đặc biệt là khi chúng ta đối mặt với các mô hình có nhiều biến tương tác. Mặc dù visreg hay ggeffects là những công cụ phổ biến, nhưng sự xuất hiện của modelbased trong hệ sinh thái easystats đã mang đến một hướng tiếp cận mới mẻ và mạnh mẽ hơn để xử lý các tương tác phức tạp trong mô hình hồi quy tổng quát. Khởi đầu với hệ sinh thái easystats Gói thư viện modelbased là một thành phần quan trọng của easystats, được thiết kế để đơn giản hóa việc phân tích và trình bày các mô hình thống kê. Để bắt đầu, chúng ta sẽ sử dụng dữ liệu thực tế về độ che phủ của san hô và sự phong phú của các loài cá để minh họa cách gói thư viện này hoạt động.
Trong các bài viết trước, chúng ta đã tìm hiểu cách sử dụng lệnh table thế hệ mới để tạo bảng và các lệnh collect để tùy chỉnh cũng như xuất dữ liệu. Trong bài viết này, tôi sẽ hướng dẫn các bạn cách kết hợp những công cụ này để tạo ra một bảng thống kê mô tả chuyên nghiệp, thường được gọi là Bảng 1 trong các báo cáo khoa học. Mục tiêu của chúng ta là tạo ra một bảng dữ liệu hoàn chỉnh trong tài liệu Microsoft Word với định dạng chuẩn mực. Khởi Tạo Bảng Cơ Bản Đầu tiên, chúng ta sẽ sử dụng bộ dữ liệu NHANES và lệnh table để tạo cấu trúc bảng ban đầu. Tôi sẽ sử dụng tùy chọn nototal để loại bỏ dòng tổng số nhằm giữ cho bảng gọn gàng hơn.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội