Ước lượng marginal likelihood qua trung bình điều hòa có chặn và vùng hpd có thể tích xác định

Việc tính toán marginal likelihood đóng vai trò then chốt trong việc so sánh và lựa chọn mô hình Bayes. Tuy nhiên, đây luôn là một thách thức lớn về mặt tính toán do yêu cầu tích phân trên không gian tham số nhiều chiều. Phương pháp trung bình điều hòa truyền thống dù đơn giản nhưng thường gặp phải vấn đề phương sai vô hạn, khiến kết quả không ổn định. Để giải quyết bài toán này, các nhà nghiên cứu đã phát triển những hướng đi mới dựa trên việc giới hạn không gian lấy mẫu trong các vùng mật độ cao nhằm đảm bảo tính hội tụ của các ước lượng bằng chứng thực nghiệm.

SỰ TIẾN HÓA CỦA CÁC PHƯƠNG PHÁP DỰA TRÊN TRUNG BÌNH ĐIỀU HÒA

Nền tảng của các nghiên cứu hiện đại bắt nguồn từ đồng nhất thức của Alan Gelfand và Dipak Dey vào năm 1994. Ý tưởng cốt lõi là sử dụng một hàm tự do để điều chỉnh trọng số của các mẫu từ phân phối hậu nghiệm. Khi hàm này được chọn là phân phối đều trên một vùng mật độ hậu nghiệm cao nhất, được gọi là vùng HPD, ước lượng thu được sẽ đảm bảo tính có chặn và do đó có phương sai hữu hạn. Đây là bước ngoặt giúp loại bỏ sự bất ổn định vốn có của phương pháp trung bình điều hòa nguyên bản.

Từ phương pháp thames đến những cải tiến cần thiết

Gần đây, phương pháp này đã được tái sinh dưới tên gọi THAMES. Cách tiếp cận này sử dụng một khối elip được xây dựng từ phân phối chuẩn làm vùng xấp xỉ cho HPD. Tâm của khối elip đặt tại điểm có mật độ hậu nghiệm cao nhất và ma trận hiệp phương sai được ước lượng từ mẫu hậu nghiệm. Tuy nhiên, một nhược điểm lớn của THAMES là khối elip này có thể bao phủ cả những vùng có mật độ thấp, làm giảm độ chính xác của ước lượng marginal likelihood.

Để thực hiện việc tính toán vùng HPD cơ bản trong môi trường r, các chuyên gia thường sử dụng thư viện HDInterval để xác định các khoảng tin cậy hẹp nhất chứa phần lớn mật độ xác suất.

1library(HDInterval)
2mau_hau_nghiem <- rnorm(1000, mean = 10, sd = 2)
3khoang_hpd <- hdi(mau_hau_nghiem, credMass = 0.95)
4print(khoang_hpd)

PHƯƠNG PHÁP ECMLE VÀ CÁCH TIẾP CẬN KHỐI ELIP BAO PHỦ

Nhằm khắc phục những hạn chế của các phương pháp trước đó, thuật toán ECMLE đã được đề xuất. Thay vì dùng một khối elip duy nhất cho toàn bộ vùng phân phối, ECMLE tạo ra một tập hợp các khối elip không chồng lấn dựa trên các mô phỏng từ phân phối hậu nghiệm. Bằng cách sử dụng phân phối đều trên tập hợp các khối elip này làm hàm tầm quan trọng nghịch đảo, phương pháp này đảm bảo việc lấy mẫu luôn nằm trong vùng HPD mục tiêu, tránh các sai số không đáng có từ những vùng có xác suất thấp.

Một ưu điểm quan trọng của ECMLE là tính không chệch của ước lượng. Điều này đạt được khi thể tích của tập hợp các khối elip được xác định chính xác thông qua một tập mẫu độc lập thứ hai từ phân phối hậu nghiệm. Các thử nghiệm thực tế cho thấy khi đối đầu với các mô hình có số chiều lớn, ECMLE duy trì được độ ổn định và độ chính xác vượt trội so với các biến thể của THAMES, ngay cả khi THAMES đã được cải tiến bằng cách cắt tỉa khối elip để khớp với vùng HPD của mô hình.

✨ Giá trị đắt giá: Việc kiểm soát phương sai thông qua các vùng HPD có giới hạn không chỉ giúp ổn định thuật toán mà còn mở ra khả năng áp dụng hiệu quả cho các mô hình hỗn hợp phức tạp, nơi mà các phương pháp truyền thống thường thất bại do hiện tượng bùng nổ phương sai ở các đuôi phân phối.

Câu hỏi tư duy: Theo bạn, tại sao việc sử dụng một tập mẫu độc lập thứ hai lại là điều kiện bắt buộc để đảm bảo tính không chệch khi tính toán thể tích vùng HPD trong thuật toán ECMLE thay vì dùng chung tập mẫu ban đầu?