messenger_logo
Liên hệ qua Messenger
SciEco

Kiểm định sự phụ thuộc chéo (Cross-sectional Dependence Test) trên STATA

NH
Nguyễn Hữu Kiên
Ngày viết: 04/04/2024

Sự phụ thuộc chéo

Sự phụ thuộc chéo (Cross-Sectional Dependence) đề cập đến mối tương quan giữa các đối tượng tại cùng một thời điểm. Ví dụ về thương mại quốc tế được đại diện bởi tổng kim ngạch xuất nhập khẩu, quan sát tại hai quốc gia A và B, lượng nhập khẩu quốc gia A tăng cũng có nghĩa làm tăng lượng xuất khẩu của quốc gia B, và cùng làm tăng tổng kim ngạch xuất nhập khẩu của cả hai quốc gia. Trên thực tế, hầu hết các quốc gia có hoạt động thương mại qua lại lẫn nhau, dẫn đến sự tương quan về tổng kim ngạch XNK giữa các quốc gia, hay dữ liệu bảng quan sát hoạt động thương mại này có thể tồn tại sự phụ thuộc chéo.

Ở khía cạnh kinh tế lượng, sự phụ thuộc chéo thường được xác định dựa trên kiểm định được đề xuất bởi Pesaran (2004). Xét mô hình dữ liệu bảng:

yit=αi+βiXit+uity_{it}=\alpha_i + \beta_i X_{it} +u_{it}

Giả thuyết cho kiểm định sự phụ thuộc chéo như sau:

H0:ρij=ρij=corr(uit,ujt)=0,ijH_0: \rho_{ij} = \rho_{ij} = corr(u_{it}, u_{jt}) = 0, \forall i \ne j

Số cặp phụ thuộc chéo có thể có (uit,ujt)(u_{it}, u_{jt}) tăng theo số đối tượng (N).

Đối với dữ liệu bảng cân bằng:

CD=2TN(N1)(i=1N1j=i+1Nρ^ij)N(0,1)CD = \sqrt{\frac{2T}{N(N-1)}}\left(\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}\hat{\rho}_{ij}\right)\simeq{N(0,1)}

ρ^ij=ρ^ji=t=1Tu^itu^jtt=1Tu^it2t=1Tu^jt2\hat{\rho}_{ij} = \hat{\rho}_{ji} = \frac{\sum_{t=1}^T \hat{u}_{it}\hat{u}_{jt}}{\sqrt{\sum_{t=1}^T \hat{u}_{it}^2}\sqrt{\sum_{t=1}^T \hat{u}_{jt}^2}}

Đối với dữ liệu bảng không cân bằng:

CD=2TN(N1)(i=1N1j=i+1NTijρ^ij)N(0,1)CD = \sqrt{\frac{2T}{N(N-1)}}\left(\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}\sqrt{T_{ij}}\hat{\rho}_{ij}\right)\simeq{N(0,1)}

ρ^ij=ρ^ji=tTiTj(u^itu^ˉi)(u^jtu^ˉj)tTiTj(u^itu^ˉi)2tTiTj(u^jtu^ˉj)2\hat{\rho}_{ij} = \hat{\rho}_{ji} = \frac{\sum_{t \in T_i \cap T_j} (\hat{u}_{it} - \bar{\hat{u}}_i)(\hat{u}_{jt} - \bar{\hat{u}}_j)}{\sqrt{\sum_{t \in T_i\cap T_j}( \hat{u}_{it} - \bar{\hat{u}}_i)^2}\sqrt{\sum_{t \in T_i\cap T_j}( \hat{u}_{jt} - \bar{\hat{u}}_j)^2}}

Với

u^ˉi=tTiTju^it#(TiTj) \bar{\hat{u}}_i = \frac{\sum_{t \in T_i \cap T_j}\hat{u}_{it}} {\#(T_i\cap T_j)}

Kiểm định của Pesaran (2004) đề xuất được sử dụng đối với dữ liệu bảng có N lớn, T nhỏ. Tuy nhiên, đối với dữ liệu bảng có N nhỏ, kiểm định này vẫn cho thấy hiệu quả. Hơn nữa, kiểm định có thể sử dụng đối với cả dữ liệu bảng cân bằng và không cân bằng. Do vậy, kiểm định sự phụ thuộc chéo do Pesaran (2004) đề xuất được ứng dụng rộng rãi. Hiện nay, đã có một số kiểm định sự phụ thuộc chéo được phát triển thêm như Weighted CD (Juodis and Reese, 2022), Power Enhanced CD (Juodis and Reese, 2022 and Fan et. al., 2015) và CD Star (Pesaran & Xie, 2021).

Thực hành trên STATA

Tải dữ liệu SciEco_trade.

1//Nhập dữ liệu
2	use SciEco_trade, clear
3
4//Khai báo dữ liệu bảng
5	xtset ID year
6
7//Tính tổng kim ngạch XNK
8	gen trade_total=export+import
9
10//Ước lượng FEM/REM
11	xtreg trade_total,fe
12
13//Kiểm định CSD
14	xtcsd, pesaran

Kết quả kiểm định sự phụ thuộc chéo đối với biến trade_totalP_value=0.000, do đó, bác bỏ giả thuyết , hay tồn tại sự thuộc chéo.

Áp dụng tương tự với những biến còn lại trong mô hình nghiên cứu của bạn để có góc nhìn tổng thể về vấn đề phụ thuộc chéo trong dữ liệu, từ đó đưa ra các quyết định lựa chọn phương pháp kiểm định nghiệm đơn vị, đồng tích hợp… phù hợp. Sự chi phối của vấn đề phụ thuộc chéo đến quyết định lựa chọn các kiểm định khác của dữ liệu bảng là nội dung quan trọng và SciEco sẽ giới thiệu trong các bài viết tiếp theo.


Bài viết khác
1. Giới thiệu Phân cụm đồ thị (K-means Clustering) là quá trình phân chia hoặc tách biệt dữ liệu theo các nhóm dựa trên các đặc điểm chung sau đó được biểu thị qua một đồ thị. Phù hợp với những công việc cần phân khúc các tệp khách hàng trong thương mại, phân tích thị trường. Điều này giúp các công ty hiểu rõ hơn về sở thích và nhu cầu của từng nhóm, qua đó đưa ra chiến lược marketing phù hợp. Trong thuật toán phân cụm, K-means là một thuật toán phân cụm đơn giản và phổ biến trong học máy (machine learning) để phân cụm các điểm dữ liệu thành các nhóm riêng biệt dựa trên các đặc điểm của chúng. Thuật toán này dùng để chia dữ liệu thành các nhóm dựa trên khoảng cách giữa các điểm dữ liệu với nhau. 2. Ta cài đặt những thư viện sau
Trong thời đại của số hóa và khoa học dữ liệu lên ngôi, khả năng phân tích, giải mã và trích xuất thông tin hữu ích từ khối lượng dữ liệu khổng lồ là một kỹ năng không thể thiếu để giúp bạn thích nghi với yêu cầu của công việc! Đặc biệt, với việc làm chủ STATA, phần mềm phân tích dữ liệu có giao diện thân thiện và khả năng xử lý dữ liệu mạnh mẽ sẽ là công cụ đắc lực cho bạn. Để có thể giúp bạn chinh phục STATA, SciEco ở đây để mang đến cho bạn khóa học STATA đầy hấp dẫn: Nội dung khóa học chi tiết: Bài 1: Giới thiệu về STATA và VES
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội