messenger_logo
Liên hệ qua Messenger
SciEco

Hồi quy phân vị: khi tác động của biến số không chỉ dừng lại ở giá trị trung bình

I
IEFPA
Ngày viết: 22/04/2026

Hồi quy phân vị cho phép tác động của các biến giải thích thay đổi tùy theo từng phân vị khác nhau của biến phụ thuộc. Các nhà nghiên cứu ứng dụng thường ưa chuộng mô hình này vì nó giúp làm rõ cách một biến số ảnh hưởng đến các nhóm đối tượng khác nhau trong quần thể. Chẳng hạn, thêm một năm đi học có thể có tác động rất lớn đến nhóm có mức thu nhập thấp nhưng lại mang lại hiệu quả ít hơn đối với nhóm có thu nhập cao. Tương tự, việc hút thêm một bao thuốc lá mỗi ngày có thể ảnh hưởng đến chức năng hô hấp của người có thể trạng yếu nghiêm trọng hơn nhiều so với người có thể trạng tốt.

Hiểu Về Phân Vị Điều Kiện Qua Dữ Liệu Mô Phỏng

Giả sử mỗi con số từ 0 đến 1 đại diện cho vị thế của một cá nhân trong quần thể, hay còn gọi là thứ hạng. Với một giá trị x cho trước, hàm phân vị điều kiện sẽ ánh xạ một thứ hạng tau nằm trong khoảng từ 0 đến 1 thành một kết quả y cụ thể. Quá trình này về bản chất là nghịch đảo của hàm phân phối điều kiện.

Để minh họa, chúng ta sử dụng dữ liệu mô phỏng từ phân phối Weibull. Biểu đồ dưới đây hiển thị sự phân tán của kết quả y theo biến x, bao gồm đường trung bình điều kiện, đường phân vị 0.8, trung vị và đường phân vị 0.2.

Đường phân vị 0.8 biểu diễn kết quả y tương ứng với thứ hạng 0.8 tại mỗi giá trị x. Tương tự, các đường 0.5 và 0.2 lần lượt đại diện cho các thứ hạng tương ứng. Thứ tự của các đường này luôn được duy trì vì giá trị phân vị cao hơn sẽ cho kết quả y lớn hơn. Trong ví dụ này, các đường cong có xu hướng hướng lên trên do chúng ta sử dụng hàm bậc hai của x trong quá trình mô phỏng. Đường trung bình nằm trên đường trung vị vì phân phối Weibull có phần đuôi bên phải dài và mỏng.

Về mặt kỹ thuật, hàm phân vị là nghịch đảo của hàm phân phối tích lũy. Nếu hàm phân phối ánh xạ giá trị y thành một vị trí xếp hạng, thì hàm phân vị sẽ thực hiện ngược lại: lấy một thứ hạng cho trước và trả về giá trị y tương ứng.

Ước Lượng Hàm Phân Vị Điều Kiện Với Lệnh Qreg

Lệnh qreg trong phần mềm Stata được sử dụng để ước lượng các tham số của hàm phân vị điều kiện. Tương tự như phương pháp bình phương tối thiểu thông thường, các hàm phân vị điều kiện được giả định là các tổ hợp tuyến tính của các biến giải thích. Các biến bậc cao hoặc tương tác có thể được xử lý dễ dàng thông qua các biến thừa số.

Trong ví dụ đầu tiên, chúng ta sẽ ước lượng các hệ số delta cho hàm phân vị điều kiện 0.2.

1use quantile1
2qreg y x c.x#c.x, quantile(0.2)

Kết quả từ lệnh qreg được thực hiện bằng cách tối thiểu hóa tổng sai lệch tuyệt đối có trọng số bất đối xứng. Bảng kết quả dưới đây cung cấp các ước lượng điểm và suy diễn thống kê cho các hệ số trong mô hình.

Khi mô phỏng dữ liệu này, các giá trị thực tế của hệ số beta được thiết lập lần lượt là 1, 1 và 0.8 với tham số alpha bằng 2. Điều này dẫn đến các giá trị thực của delta lần lượt là 0.47, 0.47 và 0.38. Các hệ số ước lượng được từ mô hình rất sát với các giá trị thực tế này.

So Sánh Phân Vị Ước Lượng Và Hàm Thực Tế

Một cách khác để kiểm chứng độ chính xác của hồi quy phân vị là so sánh hàm phân vị điều kiện 0.2 vừa ước lượng với hàm thực tế. Chúng ta sẽ tính toán giá trị dự báo và vẽ chúng trên cùng một biểu đồ.

1predict xb0
2label variable xb0 "original predictions"
3sort x
4twoway (scatter y x if y<6) (function q20 = (1+x+0.8*x^2)*((-ln(1-0.2))^(1/2)) , range(0 3)) (line xb0 x), legend(label(2 "Q(0.2|x)")) legend(cols(3))

Đường phân vị điều kiện 0.2 được ước lượng nằm rất gần với đường thực tế. Để thấy rõ sự khác biệt nhỏ giữa hai đường cong, chúng ta đã loại bớt các quan sát lớn ra khỏi biểu đồ phân tán.

Ước Lượng Tác Động Của Biến Giải Thích

Sự thay đổi trong hàm phân vị điều kiện khi một biến giải thích thay đổi được gọi là tác động của biến số. Ví dụ, tác động khi biến x tăng thêm một đơn vị lên phân vị 0.2 chính là sự chênh lệch giữa giá trị phân vị tại x cộng một và tại x.

1generate orig = x
2replace x = x+1
3predict xb1
4label variable xb1 "x=x+1 predictions"
5replace x = orig
6generate effects = xb1 - xb0
7label variable effects "Q(0.2|(x+1)) - Q(0.2|x)"
8scatter effects x

Biểu đồ này cho thấy các tác động thay đổi như thế nào dọc theo biến x, nhưng nó chưa cung cấp thông tin về độ tin cậy của các ước lượng này. Để giải quyết vấn đề đó, lệnh predictnl được sử dụng để ước lượng các biểu thức ở cấp độ quan sát và tạo ra các khoảng tin cậy điểm.

1predictnl effects2 = _b[x] + 2*_b[c.x#c.x]*x + _b[c.x#c.x], ci(low up)
2sort x
3twoway (rarea up low x) (scatter effects2 x), ytitle("Q(0.2|(x+1)) - Q(0.2|x)") legend(off)

Việc liệt kê các kết quả cho thấy hai cách tính toán đều cho ra cùng một giá trị. Sau khi xác nhận sự tương đương này, chúng ta có thể tự tin biểu diễn các tác động kèm theo khoảng tin cậy.

So Sánh Tác Động Giữa Các Phân Vị Khác Nhau

Lý do chính khiến hồi quy phân vị trở nên quan trọng là vì tác động của biến số có thể khác nhau giữa các phân vị. Giả thuyết ở đây là những người ở thứ hạng thấp sẽ chịu ảnh hưởng khác với những người ở thứ hạng cao. Để so sánh, chúng ta tiếp tục ước lượng hàm phân vị điều kiện cho mức 0.8.

1qreg y x c.x#c.x, quantile(.8)
2predictnl effects3 = _b[x] + 2*_b[c.x#c.x]*x + _b[c.x#c.x], ci(low3 up3)
3label variable effects3 "Q(0.8|(x=1)) - Q(0.8|x)"

Cuối cùng, chúng ta vẽ biểu đồ so sánh tác động của việc tăng thêm một đơn vị x lên cả hai mức phân vị 0.2 và 0.8.

Kết quả cho thấy cả độ lớn và độ dốc của tác động ở phân vị 0.8 đều lớn hơn đáng kể so với ở phân vị 0.2. Điều này minh chứng rằng biến x có ảnh hưởng mạnh mẽ hơn nhiều đối với nhóm đối tượng nằm ở phía trên của phân phối.

✨ Hồi quy phân vị là một công cụ không thể thiếu khi bạn muốn vượt qua giới hạn của giá trị trung bình để khám phá bức tranh toàn cảnh về sự không đồng nhất trong dữ liệu, từ đó đưa ra các nhận định sâu sắc và chính xác hơn về các hiện tượng kinh tế xã hội.

**Câu hỏi tư duy:** Trong trường hợp nào việc sử dụng hồi quy bình phương tối thiểu thông thường có thể dẫn đến những kết luận thiếu sót về tác động của chính sách đối với nhóm người nghèo nhất trong xã hội? Hãy thử áp dụng lệnh qreg với bộ dữ liệu của riêng bạn và so sánh kết quả ở phân vị 0.1 và 0.9.


Bài viết khác
Stata cung cấp một phương thức đơn giản và tinh tế để thực hiện các mô hình hồi quy Bayes bằng cách thêm tiền tố bayes vào trước các lệnh ước lượng. Với hơn 45 lệnh được hỗ trợ, người dùng có thể linh hoạt lựa chọn giữa các phân phối tiền nghiệm mặc định hoặc tự thiết lập theo nhu cầu nghiên cứu. Trong bài viết này, chúng ta sẽ tìm hiểu cách áp dụng hồi quy logistic Bayes và khám phá sức mạnh của phân phối tiền nghiệm Cauchy đối với các hệ số hồi quy. Một thách thức phổ biến khi làm việc với Bayes là việc lựa chọn phân phối tiền nghiệm. Cách tiếp cận thận trọng thường dùng các tiền nghiệm yếu hoặc không có thông tin để đảm bảo tính khách quan dựa trên dữ liệu. Tuy nhiên, các tiền nghiệm không có thông tin đôi khi không đủ để giải quyết những vấn đề như hiện tượng phân tách hoàn hảo trong hồi quy logistic. Ngược lại, nếu không có kiến thức chuyên gia sâu sắc, việc chọn tiền nghiệm có thông tin cũng không hề dễ dàng. Dựa trên khuyến nghị của Gelman và các cộng sự, việc sử dụng phân phối tiền nghiệm Cauchy thông tin yếu là một giải pháp cân bằng hiệu quả. Chuẩn bị dữ liệu và chuẩn hóa Chúng ta sử dụng bộ dữ liệu Iris nổi tiếng để phân loại hoa. Biến phụ thuộc virg phân biệt loài Iris virginica với các loài khác. Các biến độc lập bao gồm chiều dài và chiều rộng của đài hoa và cánh hoa. Theo khuyến nghị của các nhà nghiên cứu, các biến độc lập nên được chuẩn hóa để có trung bình bằng 0 và độ lệch chuẩn bằng 0.5 trước khi áp dụng phân phối tiền nghiệm Cauchy.
Trong bài viết này, bạn sẽ tìm hiểu kiểm định t là gì và cách thực hiện phương pháp này trong ngôn ngữ lập trình r. Đầu tiên, chúng ta sẽ làm quen với một hàm đơn giản giúp thực hiện kiểm định chỉ với một dòng mã nguồn. Sau đó, chúng ta sẽ cùng khám phá bản chất của kiểm định thông qua việc xây dựng từng bước với dữ liệu thực tế về hành khách tàu Titanic. Kiểm định t là gì Kiểm định t là một quy trình thống kê được sử dụng để kiểm tra xem sự khác biệt giữa hai nhóm có ý nghĩa hay chỉ là do ngẫu nhiên. Trong bài viết này, chúng ta sẽ xem xét dữ liệu từ các hành khách trên tàu Titanic, chia họ thành hai nhóm nam và nữ. Giả sử chúng ta muốn kiểm tra giả thuyết rằng nam giới và nữ giới có độ tuổi trung bình như nhau. Nếu dữ liệu cho thấy phụ nữ trẻ hơn nam giới trung bình 2 tuổi, chúng ta cần đặt câu hỏi: liệu đây là một sự khác biệt thực sự hay chỉ là sự trùng hợp ngẫu nhiên? Kiểm định t sẽ giúp chúng ta trả lời câu hỏi đó. Tại sao kiểm định t lại quan trọng
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội