messenger_logo
Liên hệ qua Messenger
SciEco

Ước lượng marginal likelihood qua trung bình điều hòa có chặn và vùng hpd có thể tích xác định

I
IEFPA
Ngày viết: 28/04/2026

Việc tính toán marginal likelihood đóng vai trò then chốt trong việc so sánh và lựa chọn mô hình Bayes. Tuy nhiên, đây luôn là một thách thức lớn về mặt tính toán do yêu cầu tích phân trên không gian tham số nhiều chiều. Phương pháp trung bình điều hòa truyền thống dù đơn giản nhưng thường gặp phải vấn đề phương sai vô hạn, khiến kết quả không ổn định. Để giải quyết bài toán này, các nhà nghiên cứu đã phát triển những hướng đi mới dựa trên việc giới hạn không gian lấy mẫu trong các vùng mật độ cao nhằm đảm bảo tính hội tụ của các ước lượng bằng chứng thực nghiệm.

SỰ TIẾN HÓA CỦA CÁC PHƯƠNG PHÁP DỰA TRÊN TRUNG BÌNH ĐIỀU HÒA

Nền tảng của các nghiên cứu hiện đại bắt nguồn từ đồng nhất thức của Alan Gelfand và Dipak Dey vào năm 1994. Ý tưởng cốt lõi là sử dụng một hàm tự do để điều chỉnh trọng số của các mẫu từ phân phối hậu nghiệm. Khi hàm này được chọn là phân phối đều trên một vùng mật độ hậu nghiệm cao nhất, được gọi là vùng HPD, ước lượng thu được sẽ đảm bảo tính có chặn và do đó có phương sai hữu hạn. Đây là bước ngoặt giúp loại bỏ sự bất ổn định vốn có của phương pháp trung bình điều hòa nguyên bản.

Từ phương pháp thames đến những cải tiến cần thiết

Gần đây, phương pháp này đã được tái sinh dưới tên gọi THAMES. Cách tiếp cận này sử dụng một khối elip được xây dựng từ phân phối chuẩn làm vùng xấp xỉ cho HPD. Tâm của khối elip đặt tại điểm có mật độ hậu nghiệm cao nhất và ma trận hiệp phương sai được ước lượng từ mẫu hậu nghiệm. Tuy nhiên, một nhược điểm lớn của THAMES là khối elip này có thể bao phủ cả những vùng có mật độ thấp, làm giảm độ chính xác của ước lượng marginal likelihood.

Để thực hiện việc tính toán vùng HPD cơ bản trong môi trường r, các chuyên gia thường sử dụng thư viện HDInterval để xác định các khoảng tin cậy hẹp nhất chứa phần lớn mật độ xác suất.

1library(HDInterval)
2mau_hau_nghiem <- rnorm(1000, mean = 10, sd = 2)
3khoang_hpd <- hdi(mau_hau_nghiem, credMass = 0.95)
4print(khoang_hpd)

PHƯƠNG PHÁP ECMLE VÀ CÁCH TIẾP CẬN KHỐI ELIP BAO PHỦ

Nhằm khắc phục những hạn chế của các phương pháp trước đó, thuật toán ECMLE đã được đề xuất. Thay vì dùng một khối elip duy nhất cho toàn bộ vùng phân phối, ECMLE tạo ra một tập hợp các khối elip không chồng lấn dựa trên các mô phỏng từ phân phối hậu nghiệm. Bằng cách sử dụng phân phối đều trên tập hợp các khối elip này làm hàm tầm quan trọng nghịch đảo, phương pháp này đảm bảo việc lấy mẫu luôn nằm trong vùng HPD mục tiêu, tránh các sai số không đáng có từ những vùng có xác suất thấp.

Một ưu điểm quan trọng của ECMLE là tính không chệch của ước lượng. Điều này đạt được khi thể tích của tập hợp các khối elip được xác định chính xác thông qua một tập mẫu độc lập thứ hai từ phân phối hậu nghiệm. Các thử nghiệm thực tế cho thấy khi đối đầu với các mô hình có số chiều lớn, ECMLE duy trì được độ ổn định và độ chính xác vượt trội so với các biến thể của THAMES, ngay cả khi THAMES đã được cải tiến bằng cách cắt tỉa khối elip để khớp với vùng HPD của mô hình.

✨ Giá trị đắt giá: Việc kiểm soát phương sai thông qua các vùng HPD có giới hạn không chỉ giúp ổn định thuật toán mà còn mở ra khả năng áp dụng hiệu quả cho các mô hình hỗn hợp phức tạp, nơi mà các phương pháp truyền thống thường thất bại do hiện tượng bùng nổ phương sai ở các đuôi phân phối.

Câu hỏi tư duy: Theo bạn, tại sao việc sử dụng một tập mẫu độc lập thứ hai lại là điều kiện bắt buộc để đảm bảo tính không chệch khi tính toán thể tích vùng HPD trong thuật toán ECMLE thay vì dùng chung tập mẫu ban đầu?


Bài viết khác
Trong nghiên cứu ứng dụng, các mô hình chiều cao, tức là những mô hình có quá nhiều biến giải thích tiềm năng so với kích thước mẫu hiện có, đang ngày càng trở nên phổ biến. Lasso, một kỹ thuật được thảo luận trong các bài viết trước, có thể được dùng để ước lượng các hệ số quan tâm trong mô hình chiều cao. Bài viết này sẽ đi sâu vào các lệnh trong Stata 16 giúp ước lượng các hệ số này một cách đáng tin cậy. Để minh họa vấn đề, chúng ta sẽ xem xét một ví dụ từ dữ liệu mà Sunyer cùng cộng sự (2017) đã sử dụng để ước lượng ảnh hưởng của ô nhiễm không khí lên thời gian phản ứng của học sinh tiểu học. Mô hình tổng quát có thể được biểu diễn như sau: biến thời gian phản ứng htime của cá nhân i được giải thích bởi mức độ ô nhiễm no2_class của trường học cá nhân i nhân với hệ số gamma, cộng với tích của véctơ biến kiểm soát x_i và véctơ hệ số beta, cùng với thành phần sai số epsilon_i. Cụ thể, htime là thước đo thời gian phản ứng của trẻ i trong một bài kiểm tra, no2_class đo mức độ ô nhiễm trong trường học của trẻ i, và véctơ x_i chứa các biến kiểm soát cần được đưa vào mô hình. Vấn đề đặt ra là có tới 252 biến kiểm soát tiềm năng trong x, nhưng chúng ta chỉ có 1.084 quan sát. Phương pháp thông thường là hồi quy htime theo no2_class và tất cả 252 biến kiểm soát trong x sẽ không tạo ra các ước lượng đáng tin cậy cho hệ số gamma. Nhìn kỹ hơn vào vấn đề, chúng ta thấy nhiều biến kiểm soát là các thành phần bậc hai. Chúng ta nghĩ rằng cần đưa một số trong các thành phần này vào, nhưng không quá nhiều, cùng với no2_class để có được một xấp xỉ tốt cho quá trình tạo ra dữ liệu.
Trong phiên bản Stata 17, hệ thống tạo bảng biểu đã được nâng cấp toàn diện, mang lại khả năng tùy biến mạnh mẽ và linh hoạt. Không chỉ dừng lại ở việc mở rộng chức năng của lệnh table, Stata còn giới thiệu một hệ thống hoàn toàn mới cho phép thu thập kết quả từ bất kỳ lệnh nào, thiết kế bố cục theo ý muốn và xuất bản trực tiếp sang các định dạng tài liệu phổ biến. Bài viết này sẽ hướng dẫn bạn những bước đầu tiên để làm quen với lệnh table cải tiến. Những Ví Dụ Điển Hình Về Bảng Biểu Tùy Chỉnh Trước khi đi sâu vào cú pháp, hãy cùng điểm qua một số mẫu bảng biểu mà bạn có thể dễ dàng tạo ra bằng hệ thống mới này.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội