messenger_logo
Liên hệ qua Messenger
SciEco

Kiểm định sự phụ thuộc chéo (Cross-sectional Dependence Test) trên STATA

NH
Nguyễn Hữu Kiên
Ngày viết: 04/04/2024

Sự phụ thuộc chéo

Sự phụ thuộc chéo (Cross-Sectional Dependence) đề cập đến mối tương quan giữa các đối tượng tại cùng một thời điểm. Ví dụ về thương mại quốc tế được đại diện bởi tổng kim ngạch xuất nhập khẩu, quan sát tại hai quốc gia A và B, lượng nhập khẩu quốc gia A tăng cũng có nghĩa làm tăng lượng xuất khẩu của quốc gia B, và cùng làm tăng tổng kim ngạch xuất nhập khẩu của cả hai quốc gia. Trên thực tế, hầu hết các quốc gia có hoạt động thương mại qua lại lẫn nhau, dẫn đến sự tương quan về tổng kim ngạch XNK giữa các quốc gia, hay dữ liệu bảng quan sát hoạt động thương mại này có thể tồn tại sự phụ thuộc chéo.

Ở khía cạnh kinh tế lượng, sự phụ thuộc chéo thường được xác định dựa trên kiểm định được đề xuất bởi Pesaran (2004). Xét mô hình dữ liệu bảng:

yit=αi+βiXit+uity_{it}=\alpha_i + \beta_i X_{it} +u_{it}

Giả thuyết cho kiểm định sự phụ thuộc chéo như sau:

H0:ρij=ρij=corr(uit,ujt)=0,ijH_0: \rho_{ij} = \rho_{ij} = corr(u_{it}, u_{jt}) = 0, \forall i \ne j

Số cặp phụ thuộc chéo có thể có (uit,ujt)(u_{it}, u_{jt}) tăng theo số đối tượng (N).

Đối với dữ liệu bảng cân bằng:

CD=2TN(N1)(i=1N1j=i+1Nρ^ij)N(0,1)CD = \sqrt{\frac{2T}{N(N-1)}}\left(\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}\hat{\rho}_{ij}\right)\simeq{N(0,1)}

ρ^ij=ρ^ji=t=1Tu^itu^jtt=1Tu^it2t=1Tu^jt2\hat{\rho}_{ij} = \hat{\rho}_{ji} = \frac{\sum_{t=1}^T \hat{u}_{it}\hat{u}_{jt}}{\sqrt{\sum_{t=1}^T \hat{u}_{it}^2}\sqrt{\sum_{t=1}^T \hat{u}_{jt}^2}}

Đối với dữ liệu bảng không cân bằng:

CD=2TN(N1)(i=1N1j=i+1NTijρ^ij)N(0,1)CD = \sqrt{\frac{2T}{N(N-1)}}\left(\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}\sqrt{T_{ij}}\hat{\rho}_{ij}\right)\simeq{N(0,1)}

ρ^ij=ρ^ji=tTiTj(u^itu^ˉi)(u^jtu^ˉj)tTiTj(u^itu^ˉi)2tTiTj(u^jtu^ˉj)2\hat{\rho}_{ij} = \hat{\rho}_{ji} = \frac{\sum_{t \in T_i \cap T_j} (\hat{u}_{it} - \bar{\hat{u}}_i)(\hat{u}_{jt} - \bar{\hat{u}}_j)}{\sqrt{\sum_{t \in T_i\cap T_j}( \hat{u}_{it} - \bar{\hat{u}}_i)^2}\sqrt{\sum_{t \in T_i\cap T_j}( \hat{u}_{jt} - \bar{\hat{u}}_j)^2}}

Với

u^ˉi=tTiTju^it#(TiTj) \bar{\hat{u}}_i = \frac{\sum_{t \in T_i \cap T_j}\hat{u}_{it}} {\#(T_i\cap T_j)}

Kiểm định của Pesaran (2004) đề xuất được sử dụng đối với dữ liệu bảng có N lớn, T nhỏ. Tuy nhiên, đối với dữ liệu bảng có N nhỏ, kiểm định này vẫn cho thấy hiệu quả. Hơn nữa, kiểm định có thể sử dụng đối với cả dữ liệu bảng cân bằng và không cân bằng. Do vậy, kiểm định sự phụ thuộc chéo do Pesaran (2004) đề xuất được ứng dụng rộng rãi. Hiện nay, đã có một số kiểm định sự phụ thuộc chéo được phát triển thêm như Weighted CD (Juodis and Reese, 2022), Power Enhanced CD (Juodis and Reese, 2022 and Fan et. al., 2015) và CD Star (Pesaran & Xie, 2021).

Thực hành trên STATA

Tải dữ liệu SciEco_trade.

1//Nhập dữ liệu
2	use SciEco_trade, clear
3
4//Khai báo dữ liệu bảng
5	xtset ID year
6
7//Tính tổng kim ngạch XNK
8	gen trade_total=export+import
9
10//Ước lượng FEM/REM
11	xtreg trade_total,fe
12
13//Kiểm định CSD
14	xtcsd, pesaran

Kết quả kiểm định sự phụ thuộc chéo đối với biến trade_totalP_value=0.000, do đó, bác bỏ giả thuyết , hay tồn tại sự thuộc chéo.

Áp dụng tương tự với những biến còn lại trong mô hình nghiên cứu của bạn để có góc nhìn tổng thể về vấn đề phụ thuộc chéo trong dữ liệu, từ đó đưa ra các quyết định lựa chọn phương pháp kiểm định nghiệm đơn vị, đồng tích hợp… phù hợp. Sự chi phối của vấn đề phụ thuộc chéo đến quyết định lựa chọn các kiểm định khác của dữ liệu bảng là nội dung quan trọng và SciEco sẽ giới thiệu trong các bài viết tiếp theo.


Bài viết khác
Dữ liệu hiện diện ở khắp mọi nơi. Các cơ quan chính phủ, tổ chức tài chính, trường đại học và nền tảng mạng xã hội thường cung cấp quyền truy cập dữ liệu của họ thông qua API. Hệ thống này đóng vai trò như một cầu nối, thường trả về khối dữ liệu được yêu cầu dưới định dạng tệp JSON. Việc nắm vững cách sử dụng Python để gửi các truy vấn API và xử lý dữ liệu JSON thu được ngay bên trong môi trường Stata là một kỹ năng cực kỳ hữu ích cho quá trình phân tích dữ liệu hiện đại. Khái quát về cấu trúc API và định dạng JSON API là một phần mềm trung gian cho phép hệ thống của bạn yêu cầu dữ liệu từ một hệ thống máy tính khác. Cú pháp truy vấn thường mang tính đặc thù tùy thuộc vào từng hệ thống cung cấp, nhưng một cấu trúc điển hình luôn bắt đầu bằng một URL theo sau là các tùy chọn tham số. Bài viết này sẽ lấy ví dụ về việc sử dụng hệ thống openFDA để truy xuất dữ liệu về các biến cố bất lợi của thuốc từ Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ. Chúng ta hoàn toàn có thể thêm các điều kiện lọc vào lời gọi API để thu hẹp phạm vi dữ liệu trả về. Dữ liệu này hiển thị dưới dạng JSON, một định dạng lưu trữ phổ biến được cấu trúc bởi tập hợp các cặp khóa và giá trị. Khóa hoạt động tương tự như một biến số trong tập dữ liệu Stata, còn giá trị chính là dữ liệu thực tế được ghi nhận.
Trong bài phân tích trước, chúng ta đã làm quen với mô hình tuyến tính tổng quát thông qua một tập dữ liệu khá đặc biệt: số ca tử vong do ngựa đá trong quân đội Phổ. Tập dữ liệu này đếm số lượng tử vong của các quân đoàn qua từng năm. Vì đây là dữ liệu đếm, chúng ta đã điều chỉnh mô hình tuyến tính để sử dụng phân phối Poisson, đồng thời áp dụng hàm liên kết log. Tuy nhiên, có một khía cạnh mà chúng ta chưa xem xét: liệu tất cả các quân đoàn có tỷ lệ tử vong giống hệt nhau không? Khám phá dữ liệu theo từng nhóm Trước tiên, chúng ta cần thiết lập môi trường trong R.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội