Trong bài viết này, SciEco cung cấp nội dung về kiểm định phương sai sai số thay đổi - một trong những kiểm định quan trọng trong khuyết tật mô hình hồi quy OLS.
Phương sai sai số thay đổi là hiện tượng mà phương sai của các sai số ước lượng không bằng nhau (heteroscedasticity). Hiện tượng này có thể xảy ra đối với cả 3 dạng dữ liệu: Chéo (Cross-sectional), Chuỗi thời gian (Time-series), Bảng (Panel). Đối với dữ liệu chéo được ước lượng bằng phương pháp OLS, các phương pháp kiểm định phương sai sai số thay đổi như sau:
1. Hiện tượng phương sai sai số thay đổi
Xét mô hình ban đầu:
Yi=βo+β1∗X1+β2∗X2+ui(1) Một giả thiết quan trọng của OLS chính là:
Giả thiết 3: Phương sai sai số ngẫu nhiên không đổi (homoscedasticity)
Var(ui)=σ2 Nếu giả thiết này bị vi phạm thì mô hình có phương sai sai số thay đổi (heteroskedasticity)
Var(ui)=σi2 Hệ quả:
- Các hệ số ước lượng OLS không chệch
- Phương sai của ước lượng hệ số là chệch
- Sai số chuẩn SE là chệch
- Khoảng tin cậy, kiểm định T có thể sai
- Các ước lượng OLS không còn là ước lượng hiệu quả, không phải tốt nhất
2. Kiểm định phát hiện phương sai sai số thay đổi
Ta thực hiện hồi quy bình phương phần dư e (do uchưa biết) theo các yếu tố khi hệ số góc có ý nghĩa thống kê. Nếu bình phương phần dư e thay đổi theo đó thì xuất hiện hiện tượng phương sai sai số thay đổi.
Kiểm định BPG (Breusch-Pagan-Godfrey)
Hồi quy mô hình ban đầu (1) thu được phần dư e
Mô hình hồi quy phụ:
e2=α0+α1∗X1+α2∗X2+v Ta xét cặp giả thuyết sau:
{H0:α1=α2=0H1:α12+α22=0) Sử dụng kiểm định F, tính với hệ số R bình phương của hồi quy phụ và bậc tự do k:
F=(R∗2(U)−R∗2(R))/m/(1−R∗2(U))/(n−k(U)) Hoặc sử dụng kiểm định Chi bình phương (Chi_Square), với hệ số R bình phương của hồi quy phụ và bậc tự do k:
χqs2=n∗R∗2 Bác bỏ H0 khi
χqs2>χα2(k∗−1) Kết luận: Mô hình có phương sai sai số thay đổi.
Kiểm định White
Dùng cho mô hình nhiều biến giải thích. Hồi qui bình phương phần dư theo tổ hợp bậc cao dần của các biến giải thích.
Hồi quy mô hình ban đầu (1) thu được phần dư e:
e2=α0+α1∗X1+α2∗X2+α3∗X12+α4∗X22+α5∗X1∗X2 Nếu hệ số góc bất kì khác 0 thì mô hình có phương sai sai số thay đổi.
Xét cặp giả thuyết:
{H0:R∗2=0H1:R∗2=0) Tương tự, dùng kiểm định F và kiểm định Chi bình phương (Chi_Square).
Như vậy, xác định khuyết tật phương sai sai số của mô hình được thực hiện thông qua ý nghĩa thống kê của các hệ số ước lượng trong hồi quy phụ. Hồi quy phụ nhằm xác định phần dư của mô hình có bị tác động bởi các biến độc lập hay không. Nếu có (ít nhất 1 hệ số của hồi quy phụ khác 0 và có ý nghĩa thống kê) thì mô hình ban đầu xảy ra hiện tượng phương sai sai số thay đổi. Và tùy vào các xây dựng hàm hồi quy phụ mà chúng ta có các phương pháp kiểm định khác nhau. Ngoài kiểm định Breusch-Pagan-Godfrey và White mà SciEco đã giới thiệu ở trên, các kiểm định khuyết tật này còn được đưa ra bởi Harvey, Gleijer, Park, Koenker-Bass...
Trong bài viết tiếp theo, SciEco hướng dẫn chi tiết bạn đọc cách xác định phương phương sai sai số thay đổi qua phần mềm STATA.

Chuẩn hóa dữ liệu thường được xem là một bước tiền xử lý nhỏ lẻ, một thao tác kỹ thuật áp dụng nhanh cho xong trước khi bắt tay vào xây dựng mô hình. Tuy nhiên, trên thực tế, chuẩn hóa không chỉ là một chi tiết kỹ thuật mà là một quyết định mô hình hóa mang tính chiến lược. Khi cùng một tập dữ liệu được xử lý bằng các phương pháp khác nhau, hành vi của mô hình sẽ thay đổi đáng kể. Khoảng cách, độ tương đồng, các thành phần phạt và đường dẫn tối ưu hóa đều bị ảnh hưởng trực tiếp.
Quan trọng hơn, chuẩn hóa không phải lúc nào cũng mang lại lợi ích. Nếu áp dụng sai ngữ cảnh, nó có thể làm giảm hiệu suất của mô hình hoặc tệ hơn là gây ra hiện tượng rò rỉ dữ liệu, làm ô nhiễm toàn bộ quá trình đánh giá. Một ví dụ điển hình là việc tính toán các tham số chuẩn hóa như giá trị trung bình hay độ lệch chuẩn trên toàn bộ tập dữ liệu trước khi chia thành tập huấn luyện và tập kiểm tra. Quá trình này vô tình mang thông tin của tập kiểm tra trộn lẫn vào quá trình huấn luyện, tạo ra những kết quả đánh giá ảo tưởng. Vấn đề cốt lõi không nằm ở bản thân phương pháp, mà ở việc bạn áp dụng nó khi nào và như thế nào.
Bài viết này sẽ coi chuẩn hóa là một phần không thể tách rời của chiến lược mô hình hóa. Chúng ta sẽ cùng nhau giải quyết từng bước các vấn đề nền tảng: tại sao cần chuẩn hóa, khi nào nên áp dụng, thời điểm thực hiện trước hay sau khi chia tập dữ liệu và cách xử lý với từng loại biến số khác nhau.
Phân biệt thuật ngữ chuẩn hóa và tiêu chuẩn hóa

Trong quá trình phân tích dữ liệu, chúng ta thường phải tạo ra rất nhiều bảng kết quả hồi quy với cùng một định dạng và nhãn dán lặp đi lặp lại. Thay vì phải định dạng lại từ đầu cho mỗi bảng báo cáo, Stata cung cấp một giải pháp hiệu quả giúp bạn lưu lại toàn bộ cấu trúc trình bày để tái sử dụng về sau. Bài viết này sẽ hướng dẫn cách lưu các thiết lập định dạng bảng và áp dụng chúng cho những dự án phân tích dữ liệu trong tương lai.
Tạo bảng kết quả cơ bản
Chúng ta sẽ bắt đầu bằng việc mở tập dữ liệu thông qua lệnh webuse nhanes2l. Sau đó, chúng ta dùng lệnh table để tạo một bảng cơ bản cho mô hình hồi quy logistic với biến phụ thuộc nhị phân là highbp. Bảng này sẽ bao gồm tỷ số chênh, sai số chuẩn, thống kê z, p-value và khoảng tin cậy. Lưu ý rằng ký hiệu biến phân loại của Stata được sử dụng để đưa vào hiệu ứng chính của biến liên tục age, hiệu ứng chính của các biến phân loại sex và diabetes, cùng với sự tương tác giữa age và sex.