messenger_logo
Liên hệ qua Messenger
SciEco
Bài viết.
Bài viết từ trang scienceforeconomics.com
cover
Stata cung cấp một phương thức đơn giản và tinh tế để thực hiện các mô hình hồi quy Bayes bằng cách thêm tiền tố bayes vào trước các lệnh ước lượng. Với hơn 45 lệnh được hỗ trợ, người dùng có thể linh hoạt lựa chọn giữa các phân phối tiền nghiệm mặc định hoặc tự thiết lập theo nhu cầu nghiên cứu. Trong bài viết này, chúng ta sẽ tìm hiểu cách áp dụng hồi quy logistic Bayes và khám phá sức mạnh của phân phối tiền nghiệm Cauchy đối với các hệ số hồi quy. Một thách thức phổ biến khi làm việc với Bayes là việc lựa chọn phân phối tiền nghiệm. Cách tiếp cận thận trọng thường dùng các tiền nghiệm yếu hoặc không có thông tin để đảm bảo tính khách quan dựa trên dữ liệu. Tuy nhiên, các tiền nghiệm không có thông tin đôi khi không đủ để giải quyết những vấn đề như hiện tượng phân tách hoàn hảo trong hồi quy logistic. Ngược lại, nếu không có kiến thức chuyên gia sâu sắc, việc chọn tiền nghiệm có thông tin cũng không hề dễ dàng. Dựa trên khuyến nghị của Gelman và các cộng sự, việc sử dụng phân phối tiền nghiệm Cauchy thông tin yếu là một giải pháp cân bằng hiệu quả. Chuẩn bị dữ liệu và chuẩn hóa Chúng ta sử dụng bộ dữ liệu Iris nổi tiếng để phân loại hoa. Biến phụ thuộc virg phân biệt loài Iris virginica với các loài khác. Các biến độc lập bao gồm chiều dài và chiều rộng của đài hoa và cánh hoa. Theo khuyến nghị của các nhà nghiên cứu, các biến độc lập nên được chuẩn hóa để có trung bình bằng 0 và độ lệch chuẩn bằng 0.5 trước khi áp dụng phân phối tiền nghiệm Cauchy.
cover
Trong bài viết này, bạn sẽ tìm hiểu kiểm định t là gì và cách thực hiện phương pháp này trong ngôn ngữ lập trình r. Đầu tiên, chúng ta sẽ làm quen với một hàm đơn giản giúp thực hiện kiểm định chỉ với một dòng mã nguồn. Sau đó, chúng ta sẽ cùng khám phá bản chất của kiểm định thông qua việc xây dựng từng bước với dữ liệu thực tế về hành khách tàu Titanic. Kiểm định t là gì Kiểm định t là một quy trình thống kê được sử dụng để kiểm tra xem sự khác biệt giữa hai nhóm có ý nghĩa hay chỉ là do ngẫu nhiên. Trong bài viết này, chúng ta sẽ xem xét dữ liệu từ các hành khách trên tàu Titanic, chia họ thành hai nhóm nam và nữ. Giả sử chúng ta muốn kiểm tra giả thuyết rằng nam giới và nữ giới có độ tuổi trung bình như nhau. Nếu dữ liệu cho thấy phụ nữ trẻ hơn nam giới trung bình 2 tuổi, chúng ta cần đặt câu hỏi: liệu đây là một sự khác biệt thực sự hay chỉ là sự trùng hợp ngẫu nhiên? Kiểm định t sẽ giúp chúng ta trả lời câu hỏi đó. Tại sao kiểm định t lại quan trọng
cover
Trong trò chơi 20 câu hỏi, chiến thuật thông minh nhất mà chúng ta thường áp dụng là đặt ra những câu hỏi có khả năng chia đôi các lựa chọn còn lại. Cách tiếp cận này có sự tương đồng đáng kinh ngạc với thuật toán cây quyết định trong học máy, dù giữa chúng có một điểm khác biệt căn bản. Một cây quyết định thực tế thường có hành vi giống như đang gian lận. Trong khi người chơi phải tự tìm ra đáp án, thuật toán cây quyết định lại biết trước mục tiêu cuối cùng là gì. Nó cố gắng tìm ra những đặc trưng và giá trị phân tách tốt nhất để tách biệt đối tượng mục tiêu khỏi các dữ liệu còn lại tại mỗi node, nhưng nó cần biết câu trả lời đúng để đưa ra những câu hỏi tối ưu nhất. Đây chính là lý do tại sao khi chúng ta thay đổi đối tượng cần tìm, thuật toán có thể chọn các đặc trưng và điểm phân chia hoàn toàn khác nhau. Xây dựng mô hình cây quyết định với dữ liệu Tổng thống Hoa Kỳ Để thử nghiệm giả thuyết này, tôi đã sử dụng tập dữ liệu về các đời Tổng thống Hoa Kỳ. Một thách thức nhỏ khi xử lý dữ liệu này là một số biến số có quá nhiều giá trị riêng biệt, ví dụ như tên các đảng phái chính trị vào thế kỷ 18. Để mô hình hoạt động hiệu quả hơn, tôi đã tiến hành nhóm các giá trị này lại nhằm giảm bớt sự phức tạp. Ban đầu, tôi thử chọn ngẫu nhiên một vị Tổng thống, nhưng sau đó tôi quyết định chọn Ronald Reagan làm mục tiêu để tạo ra một cấu trúc cây thú vị và gần gũi hơn với cách đặt câu hỏi của con người. Nếu chọn President Garfield, chúng ta có thể có câu hỏi độc đáo về việc ông từng chứng minh định lý Pythagoras, nhưng điều đó có vẻ hơi quá chuyên sâu cho một mô hình tổng quát. Dưới đây là cấu trúc cây quyết định được tạo ra để tìm ra mục tiêu Ronald Reagan:
cover
Thị trường tiền mã hóa vừa chứng kiến một cột mốc lịch sử khi giá Bitcoin chạm ngưỡng 125.664 đô la vào ngày 5 tháng 10. Sự bùng nổ này được thúc đẩy bởi dòng vốn ròng kỷ lục trị giá 3,24 tỷ đô la đổ vào các quỹ ETF Bitcoin giao ngay cùng nhu cầu ngày càng tăng từ công chúng. Trong bối cảnh đó, việc phân tích và dự báo xu hướng của các quỹ hoán đổi danh mục liên quan đến công nghệ blockchain trở nên quan trọng hơn bao giờ hết đối với các nhà đầu tư. Bài viết này sẽ hướng dẫn cách thực hiện dự báo lồng nhau cho hai quỹ ETF blockchain tiêu biểu bằng cách tận dụng sức mạnh tính toán song song của backend Spark. Thiết lập môi trường và thu thập dữ liệu Để bắt đầu, chúng ta cần thiết lập kết nối với Spark và chuẩn bị các thư viện cần thiết trong hệ sinh thái tidymodels và modeltime. Việc sử dụng Spark giúp tăng tốc quá trình huấn luyện mô hình khi xử lý nhiều chuỗi thời gian cùng lúc. Hai quỹ được lựa chọn để phân tích bao gồm Invesco CoinShares Global Blockchain và iShares Blockchain and Tech.
cover
Tích hợp python trong stata phần 2: ba cách sử dụng python trong stata
Tháng 05/2026
Trong bài đăng trước, tôi đã chỉ cho bạn cách cài đặt Python và thiết lập Stata để sử dụng Python. Bây giờ, chúng ta đã sẵn sàng để sử dụng Python. Có ba cách để sử dụng Python trong Stata: gọi Python một cách tương tác, đưa mã Python vào các do-file và ado-file, và thực thi các tệp script Python. Mỗi cách hữu ích trong những trường hợp khác nhau, vì vậy tôi sẽ trình bày cả ba. Các ví dụ được cố tình đơn giản và đôi khi mang tính minh họa. Tôi sẽ trình bày một số ví dụ phức tạp hơn trong các bài đăng sau, nhưng trong bài này, tôi muốn giữ mọi thứ đơn giản. Gọi Python Tương Tác Bạn có thể sử dụng Python một cách tương tác trong Stata bằng cách gõ `python` vào cửa sổ lệnh của Stata.
cover
Sử dụng lasso để suy luận trong các mô hình dữ liệu chiều cao
Tháng 05/2026
Trong nghiên cứu ứng dụng, các mô hình chiều cao, tức là những mô hình có quá nhiều biến giải thích tiềm năng so với kích thước mẫu hiện có, đang ngày càng trở nên phổ biến. Lasso, một kỹ thuật được thảo luận trong các bài viết trước, có thể được dùng để ước lượng các hệ số quan tâm trong mô hình chiều cao. Bài viết này sẽ đi sâu vào các lệnh trong Stata 16 giúp ước lượng các hệ số này một cách đáng tin cậy. Để minh họa vấn đề, chúng ta sẽ xem xét một ví dụ từ dữ liệu mà Sunyer cùng cộng sự (2017) đã sử dụng để ước lượng ảnh hưởng của ô nhiễm không khí lên thời gian phản ứng của học sinh tiểu học. Mô hình tổng quát có thể được biểu diễn như sau: biến thời gian phản ứng htime của cá nhân i được giải thích bởi mức độ ô nhiễm no2_class của trường học cá nhân i nhân với hệ số gamma, cộng với tích của véctơ biến kiểm soát x_i và véctơ hệ số beta, cùng với thành phần sai số epsilon_i. Cụ thể, htime là thước đo thời gian phản ứng của trẻ i trong một bài kiểm tra, no2_class đo mức độ ô nhiễm trong trường học của trẻ i, và véctơ x_i chứa các biến kiểm soát cần được đưa vào mô hình. Vấn đề đặt ra là có tới 252 biến kiểm soát tiềm năng trong x, nhưng chúng ta chỉ có 1.084 quan sát. Phương pháp thông thường là hồi quy htime theo no2_class và tất cả 252 biến kiểm soát trong x sẽ không tạo ra các ước lượng đáng tin cậy cho hệ số gamma. Nhìn kỹ hơn vào vấn đề, chúng ta thấy nhiều biến kiểm soát là các thành phần bậc hai. Chúng ta nghĩ rằng cần đưa một số trong các thành phần này vào, nhưng không quá nhiều, cùng với no2_class để có được một xấp xỉ tốt cho quá trình tạo ra dữ liệu.
cover
Bảng biểu tùy chỉnh trong stata 17: sức mạnh từ lệnh table mới
Tháng 04/2026
Trong phiên bản Stata 17, hệ thống tạo bảng biểu đã được nâng cấp toàn diện, mang lại khả năng tùy biến mạnh mẽ và linh hoạt. Không chỉ dừng lại ở việc mở rộng chức năng của lệnh table, Stata còn giới thiệu một hệ thống hoàn toàn mới cho phép thu thập kết quả từ bất kỳ lệnh nào, thiết kế bố cục theo ý muốn và xuất bản trực tiếp sang các định dạng tài liệu phổ biến. Bài viết này sẽ hướng dẫn bạn những bước đầu tiên để làm quen với lệnh table cải tiến. Những Ví Dụ Điển Hình Về Bảng Biểu Tùy Chỉnh Trước khi đi sâu vào cú pháp, hãy cùng điểm qua một số mẫu bảng biểu mà bạn có thể dễ dàng tạo ra bằng hệ thống mới này.
cover
Ước lượng marginal likelihood qua trung bình điều hòa có chặn và vùng hpd có thể tích xác định
Tháng 04/2026
Việc tính toán marginal likelihood đóng vai trò then chốt trong việc so sánh và lựa chọn mô hình Bayes. Tuy nhiên, đây luôn là một thách thức lớn về mặt tính toán do yêu cầu tích phân trên không gian tham số nhiều chiều. Phương pháp trung bình điều hòa truyền thống dù đơn giản nhưng thường gặp phải vấn đề phương sai vô hạn, khiến kết quả không ổn định. Để giải quyết bài toán này, các nhà nghiên cứu đã phát triển những hướng đi mới dựa trên việc giới hạn không gian lấy mẫu trong các vùng mật độ cao nhằm đảm bảo tính hội tụ của các ước lượng bằng chứng thực nghiệm. SỰ TIẾN HÓA CỦA CÁC PHƯƠNG PHÁP DỰA TRÊN TRUNG BÌNH ĐIỀU HÒA Nền tảng của các nghiên cứu hiện đại bắt nguồn từ đồng nhất thức của Alan Gelfand và Dipak Dey vào năm 1994. Ý tưởng cốt lõi là sử dụng một hàm tự do để điều chỉnh trọng số của các mẫu từ phân phối hậu nghiệm. Khi hàm này được chọn là phân phối đều trên một vùng mật độ hậu nghiệm cao nhất, được gọi là vùng HPD, ước lượng thu được sẽ đảm bảo tính có chặn và do đó có phương sai hữu hạn. Đây là bước ngoặt giúp loại bỏ sự bất ổn định vốn có của phương pháp trung bình điều hòa nguyên bản. Từ phương pháp thames đến những cải tiến cần thiết
cover
Khoảng dự báo với mô hình gradient boosting machine trong stata
Tháng 04/2026
Các phương pháp học máy, điển hình là các cây quyết định kết hợp, đang được sử dụng rộng rãi để dự báo kết quả dựa trên dữ liệu. Tuy nhiên, các phương pháp này thường tập trung vào việc đưa ra các dự báo điểm, điều này làm hạn chế khả năng định lượng độ không chắc chắn của dự báo. Trong nhiều lĩnh vực như y tế và tài chính, mục tiêu không chỉ là dự báo chính xác mà còn là đánh giá độ tin cậy của các dự báo đó. Khoảng dự báo, cung cấp các ngưỡng trên và ngưỡng dưới sao cho giá trị thực tế nằm trong đó với xác suất cao, là một công cụ đáng tin cậy để định lượng độ chính xác của dự báo. Một khoảng dự báo lý tưởng cần đáp ứng các tiêu chí: cung cấp độ bao phủ hợp lệ mà không phụ thuộc vào các giả định phân phối mạnh, có tính cung cấp thông tin bằng cách càng hẹp càng tốt cho mỗi quan sát, và có tính thích ứng, tức là cung cấp khoảng rộng hơn cho các quan sát khó dự báo và hẹp hơn cho các quan sát dễ dự báo. Bài viết này sẽ hướng dẫn cách sử dụng bộ lệnh h2oml trong Stata để xây dựng các khoảng dự báo bằng cách tiếp cận hồi quy phân vị phù hợp. Khái niệm về dự báo phù hợp Dự báo phù hợp là một phương pháp tổng quát được thiết kế để bổ trợ cho bất kỳ dự báo học máy nào bằng cách cung cấp các khoảng dự báo có đảm bảo về độ bao phủ thống kê mà không cần giả định phân phối. Về mặt lý thuyết, dự báo phù hợp bắt đầu với một mô hình học máy đã được huấn luyện trước trên dữ liệu độc lập và được phân phối định danh. Sau đó, nó sử dụng dữ liệu kiểm chứng được giữ lại từ cùng một phân phối tạo dữ liệu, gọi là dữ liệu hiệu chuẩn, để xác định một hàm số điểm S. Hàm số này gán điểm số lớn hơn khi sự khác biệt giữa giá trị dự báo và giá trị phản hồi thực tế lớn hơn. Những điểm số này sau đó được sử dụng để xây dựng khoảng dự báo cho các quan sát mới.
cover
Ước lượng tác động của biến cộng biến sau khi sử dụng phương pháp moment tổng quát
Tháng 04/2026
Trong phân tích thống kê hiện đại, việc xác định các hệ số của mô hình thường chỉ là bước khởi đầu. Điều mà các nhà nghiên cứu thực sự quan tâm là tác động của các biến độc lập lên giá trị kỳ vọng của biến kết quả. Từ phiên bản Stata 14.2, khả năng sử dụng lệnh margins sau khi ước lượng bằng phương pháp moment tổng quát đã mở ra một công cụ mạnh mẽ để phân tích sâu hơn các mô hình phức tạp. Bài viết này sẽ hướng dẫn cách sử dụng margins và marginsplot để ước lượng tác động của các biến cộng biến trong mô hình Probit được thực hiện qua phương pháp GMM. Lệnh margins hoạt động bằng cách tính toán các số liệu thống kê từ dự báo của một mô hình đã khớp trước đó tại các giá trị cố định của một số biến cộng biến, sau đó lấy trung bình hoặc tích phân trên các biến còn lại. Phương pháp này cực kỳ hữu ích để ước lượng các tham số trung bình của quần thể như trung bình biên, tác động điều trị trung bình hoặc tác động trung bình của một biến lên trung bình có điều kiện. Mô hình Probit và phương pháp moment tổng quát Đối với một kết quả nhị phân y và các biến dự báo x, mô hình Probit giả định rằng biến y bằng một khi tổng tích của x với hệ số beta cộng với sai số lớn hơn không, trong đó sai số tuân theo phân phối chuẩn hóa. Hàm trung bình có điều kiện của y khi biết x chính là hàm phân phối tích lũy chuẩn hóa của tích x và beta.
cover
Cách tạo lệnh chạy chatgpt trong phần mềm stata
Tháng 04/2026
Trí tuệ nhân tạo đang trở thành một chủ đề thu hút sự chú ý lớn và ChatGPT hiện là công cụ phổ biến nhất trong lĩnh vực này. Việc kết hợp khả năng phân tích thống kê chuyên sâu của Stata với sự linh hoạt của trí tuệ nhân tạo có thể giúp quy trình làm việc của nhà nghiên cứu trở nên hiệu quả hơn. Bài viết này sẽ hướng dẫn bạn cách xây dựng một lệnh tùy chỉnh trong Stata để gọi trực tiếp ChatGPT thông qua việc tích hợp môi trường Python. Tích hợp Stata và Python Để bắt đầu, chúng ta cần tận dụng khả năng chạy mã Python ngay bên trong Stata. Nếu bạn chưa quen với việc sử dụng kết hợp hai ngôn ngữ này, hãy đảm bảo rằng Stata đã được thiết lập để nhận diện phiên bản Python trên máy tính của bạn. Việc tích hợp này cho phép chúng ta sử dụng các thư viện mạnh mẽ của Python để xử lý các tác vụ mà Stata thuần túy chưa hỗ trợ, ví dụ như giao tiếp với giao diện lập trình ứng dụng. Sử dụng Python để tương tác với ChatGPT
cover
Hồi quy phân vị: khi tác động của biến số không chỉ dừng lại ở giá trị trung bình
Tháng 04/2026
Hồi quy phân vị cho phép tác động của các biến giải thích thay đổi tùy theo từng phân vị khác nhau của biến phụ thuộc. Các nhà nghiên cứu ứng dụng thường ưa chuộng mô hình này vì nó giúp làm rõ cách một biến số ảnh hưởng đến các nhóm đối tượng khác nhau trong quần thể. Chẳng hạn, thêm một năm đi học có thể có tác động rất lớn đến nhóm có mức thu nhập thấp nhưng lại mang lại hiệu quả ít hơn đối với nhóm có thu nhập cao. Tương tự, việc hút thêm một bao thuốc lá mỗi ngày có thể ảnh hưởng đến chức năng hô hấp của người có thể trạng yếu nghiêm trọng hơn nhiều so với người có thể trạng tốt. Hiểu Về Phân Vị Điều Kiện Qua Dữ Liệu Mô Phỏng Giả sử mỗi con số từ 0 đến 1 đại diện cho vị thế của một cá nhân trong quần thể, hay còn gọi là thứ hạng. Với một giá trị x cho trước, hàm phân vị điều kiện sẽ ánh xạ một thứ hạng tau nằm trong khoảng từ 0 đến 1 thành một kết quả y cụ thể. Quá trình này về bản chất là nghịch đảo của hàm phân phối điều kiện. Để minh họa, chúng ta sử dụng dữ liệu mô phỏng từ phân phối Weibull. Biểu đồ dưới đây hiển thị sự phân tán của kết quả y theo biến x, bao gồm đường trung bình điều kiện, đường phân vị 0.8, trung vị và đường phân vị 0.2.
cover
Tùy chỉnh bảng biểu trong stata 17: trình bày kết quả mô hình hồi quy
Tháng 04/2026
Trong phân tích dữ liệu, việc trình bày kết quả hồi quy một cách rõ ràng và chuyên nghiệp là bước quan trọng để truyền tải thông tin. Với phiên bản Stata 17, lệnh table đã được cải tiến đáng kể, cho phép người dùng tùy biến bảng biểu linh hoạt thông qua tùy chọn command. Bài viết này sẽ hướng dẫn bạn cách tạo một bảng kết quả cho mô hình hồi quy đơn lẻ, từ các thông số thô cho đến một định dạng hoàn chỉnh để xuất sang Microsoft Word. Khởi tạo bảng cơ bản cho mô hình hồi quy Trước tiên, chúng ta cần chuẩn bị dữ liệu. Trong ví dụ này, chúng ta sử dụng bộ dữ liệu khảo sát sức khỏe và dinh dưỡng quốc gia để nghiên cứu các yếu tố ảnh hưởng đến tình trạng cao huyết áp.
cover
Chỉ số gini là gì và cách tính toán nó như thế nào?
Tháng 04/2026
Chỉ số Gini là một thước đo thống kê được sử dụng để định lượng sự bất bình đẳng trong một phân phối, thường được áp dụng cho phân phối thu nhập hoặc tài sản trong một quần thể. Đây là thước đo sự tập trung, phản ánh cách các nguồn lực được phân bổ giữa các cá nhân trong một quốc gia hoặc khu vực. Chỉ số này được nhà thống kê người Ý Corrado Gini phát triển vào năm 1912. Giá trị của chỉ số Gini nằm trong khoảng từ 0 đến 1 (hoặc 0% đến 100%), trong đó 0 đại diện cho sự bình đẳng hoàn hảo (mọi người đều có cùng mức thu nhập) và 1 đại diện cho sự bất bình đẳng tối đa (chỉ một người sở hữu toàn bộ thu nhập, những người khác không có gì). Để hiểu rõ hơn, hãy xét một ví dụ đơn giản: "Có hai cái bánh mì. Bạn ăn cả hai, tôi không ăn cái nào. Mức tiêu thụ trung bình: một cái bánh mì mỗi người." Dù mức trung bình là một cái bánh mì mỗi người, chỉ số Gini trong trường hợp này là 1 (bất bình đẳng tối đa) vì một người tiêu thụ toàn bộ, người còn lại không có gì. Chỉ số này không phải là Trí tuệ nhân tạo hay một khái niệm trừu tượng, mà chỉ là một thước đo thống kê đơn giản. Khái Niệm Chỉ Số Gini
cover
Ứng dụng mô hình cộng tổng quát (gam) để dự báo giá trị vòng đời khách hàng
Tháng 04/2026
Trong lĩnh vực sinh thái học định lượng và dịch tễ học phân tử, các nhà khoa học thường sử dụng mô hình thống kê để dự báo sự phân bố loài hoặc mô hình lây truyền bệnh tật. Tuy nhiên, một ứng dụng thú vị khác của mô hình cộng tổng quát, thường được gọi là GAM, chính là dự báo giá trị vòng đời khách hàng trong các doanh nghiệp phần mềm dịch vụ. Việc dự báo CLV đối mặt với những thách thức thống kê tương tự như dự báo sinh thái: các mối quan hệ phi tuyến tính đạt đến giới hạn bão hòa, cấu trúc phân cấp nơi các nhóm khách hàng hành xử khác nhau và nhu cầu cân bằng giữa tính linh hoạt của mô hình với khả năng giải thích cho các bên liên quan. Nhiều doanh nghiệp hiện nay vẫn dựa vào các phương pháp tính toán đơn giản như lấy giá trị đơn hàng trung bình nhân với tần suất và thời gian gắn bó. Cách tiếp cận này bỏ qua quỹ đạo cá nhân và động lực thời gian. Ngược lại, các mô hình học máy dạng hộp đen có thể nắm bắt các quy luật phức tạp nhưng lại thiếu tính diễn giải cần thiết cho các quyết định chiến lược. Mô hình GAM xuất hiện như một giải pháp trung gian hoàn hảo, cho phép nắm bắt các mối quan hệ phi tuyến phức tạp thông qua các hàm mượt có thể trực quan hóa, đồng thời xử lý tốt hiện tượng phương sai thay đổi đặc trưng trong dữ liệu doanh thu. Hiểu về động lực kinh doanh SaaS Các công ty SaaS hoạt động dựa trên doanh thu định kỳ từ đăng ký thuê bao. Khách hàng trả tiền hàng tháng hoặc hàng năm để duy trì quyền truy cập vào phần mềm. Điều này thay đổi hoàn toàn bài toán thống kê. Thách thức lớn nhất là chi phí thu hút khách hàng thường rất lớn so với doanh thu hàng tháng. Một khách hàng trả 99 đô la mỗi tháng nhưng tốn 500 đô la để thu hút sẽ cần ít nhất sáu tháng để doanh nghiệp đạt điểm hòa vốn.
cover
Giới thiệu về thống kê bayes phần 1: các khái niệm cơ bản
Tháng 04/2026
Trong bài viết này, tôi sẽ giới thiệu cho bạn một cách tiếp cận tương đối đơn giản về thống kê Bayes. Phương pháp Bayes ngày càng trở nên phổ biến và bạn có thể thực hiện các mô hình này bằng lệnh bayesmh trong phần mềm Stata. Nội dung hôm nay sẽ tập trung vào các khái niệm, thuật ngữ chuyên môn và cú pháp cơ bản. Trong bài viết tiếp theo, chúng ta sẽ cùng tìm hiểu sâu hơn về mô hình Markov chain Monte Carlo thông qua thuật toán Metropolis-Hastings. Thống kê bayes qua ví dụ thực tế Nhiều người trong chúng ta được đào tạo theo trường phái thống kê tần suất, nơi các tham số được coi là các đại lượng cố định nhưng chưa biết giá trị. Chúng ta ước lượng các tham số này bằng cách lấy mẫu từ quần thể, và các mẫu khác nhau sẽ cho ra các ước lượng khác nhau. Tập hợp các ước lượng này tạo nên phân phối mẫu, giúp định lượng sự không chắc chắn của kết quả. Tuy nhiên, bản thân tham số vẫn luôn được xem là một hằng số cố định. Thống kê Bayes mang đến một tư duy hoàn toàn khác. Ở đây, các tham số được đối xử như các biến ngẫu nhiên và có thể được mô tả bằng các phân phối xác suất. Chúng ta thậm chí không cần dữ liệu để mô tả phân phối của một tham số, bởi xác suất đơn giản là mức độ tin tưởng của chúng ta vào giá trị đó.
cover
Sử dụng thư việc modelbased để trực quan hóa các tương tác trong mô hình khoa học dữ liệu
Tháng 04/2026
Trong quá trình phân tích dữ liệu, việc trực quan hóa các dự báo từ mô hình luôn là một thách thức, đặc biệt là khi chúng ta đối mặt với các mô hình có nhiều biến tương tác. Mặc dù visreg hay ggeffects là những công cụ phổ biến, nhưng sự xuất hiện của modelbased trong hệ sinh thái easystats đã mang đến một hướng tiếp cận mới mẻ và mạnh mẽ hơn để xử lý các tương tác phức tạp trong mô hình hồi quy tổng quát. Khởi đầu với hệ sinh thái easystats Gói thư viện modelbased là một thành phần quan trọng của easystats, được thiết kế để đơn giản hóa việc phân tích và trình bày các mô hình thống kê. Để bắt đầu, chúng ta sẽ sử dụng dữ liệu thực tế về độ che phủ của san hô và sự phong phú của các loài cá để minh họa cách gói thư viện này hoạt động.
cover
Tạo bảng thống kê mô tả classic table 1 trên stata 17
Tháng 04/2026
Trong các bài viết trước, chúng ta đã tìm hiểu cách sử dụng lệnh table thế hệ mới để tạo bảng và các lệnh collect để tùy chỉnh cũng như xuất dữ liệu. Trong bài viết này, tôi sẽ hướng dẫn các bạn cách kết hợp những công cụ này để tạo ra một bảng thống kê mô tả chuyên nghiệp, thường được gọi là Bảng 1 trong các báo cáo khoa học. Mục tiêu của chúng ta là tạo ra một bảng dữ liệu hoàn chỉnh trong tài liệu Microsoft Word với định dạng chuẩn mực. Khởi Tạo Bảng Cơ Bản Đầu tiên, chúng ta sẽ sử dụng bộ dữ liệu NHANES và lệnh table để tạo cấu trúc bảng ban đầu. Tôi sẽ sử dụng tùy chọn nototal để loại bỏ dòng tổng số nhằm giữ cho bảng gọn gàng hơn.
cover
Trực quan hóa và phân tích dữ liệu đo đạc địa hình lòng hồ với ngôn ngữ r
Tháng 04/2026
Bước đầu tiên trong chuỗi giá trị của các đơn vị quản lý nước là khai thác nước từ các nguồn tự nhiên như sông, nước ngầm, đại dương hoặc hồ chứa. Các nhà quản lý nước và cộng đồng đều quan tâm đến việc hồ chứa hiện đang giữ bao nhiêu nước. Đây không phải là một bài toán dễ giải quyết, vì nó đòi hỏi quá trình phân tích kỹ lưỡng từ dữ liệu khảo sát thực địa đến tính toán thể tích thực tế. Bài viết này sẽ hướng dẫn cách trực quan hóa và phân tích dữ liệu đo đạc địa hình lòng hồ bằng ngôn ngữ R, sử dụng dữ liệu từ hồ chứa Prettyboy ở Maryland, Hoa Kỳ. Hồ Chứa Prettyboy Và Nguồn Dữ Liệu Trong quá trình tìm kiếm các khảo sát địa hình lòng hồ công khai, chúng ta có thể khai thác dữ liệu từ website của Cơ quan Khảo sát Địa chất Maryland. Tổ chức này nghiên cứu về địa chất và tài nguyên nước của bang Maryland. Hồ chứa Prettyboy đóng vai trò cung cấp nước cho gần hai triệu cư dân tại thành phố Baltimore và năm quận lân cận. Cơ quan này công bố dữ liệu đo đạc cho các hồ chứa của họ, bao gồm cả các thông số chi tiết về độ sâu và tọa độ. Trích Xuất, Chuyển Đổi Và Tải Dữ Liệu
cover
Mô hình adam trong dự báo dữ liệu chuỗi thời gian có tính chu kỳ theo ngày
Tháng 04/2026
Trong phân tích chuỗi thời gian, việc xử lý các dữ liệu có tính chu kỳ theo ngày luôn là một thách thức lớn đối với các nhà khoa học dữ liệu. Một trong những công cụ mạnh mẽ và linh hoạt nhất hiện nay để giải quyết vấn đề này là mô hình ADAM. Đây là một khung mô hình thích ứng động giúp nắm bắt hiệu quả các đặc tính phức tạp của dữ liệu tài chính mà không cần quá nhiều bước tiền xử lý thủ công. Khám phá sức mạnh của mô hình ADAM trong phân tích tài chính Mô hình ADAM tỏ ra đặc biệt hiệu quả khi áp dụng vào các chỉ số chứng khoán như BIST 100. Điểm ưu việt của phương pháp này nằm ở khả năng tự động nhận diện xu hướng và tính chu kỳ vốn có trong dữ liệu. Thay vì phải tạo ra hàng loạt biến ngoại sinh thông qua các bước trích xuất đặc trưng từ thời gian, thuật toán ADAM có thể tự điều chỉnh để khớp với cấu trúc của chuỗi số liệu một cách tự nhiên. Việc tinh giản quy trình chuẩn bị dữ liệu không chỉ giúp tiết kiệm thời gian mà còn giảm thiểu rủi ro gây nhiễu cho mô hình. Khi các thành phần xu hướng và chu kỳ được xử lý nội tại, mô hình sẽ giữ được độ tinh gọn cần thiết mà vẫn đảm bảo độ chính xác cao trong các khoảng dự báo.
cover
Hiểu rõ kết quả mô hình probit đa thức với stata (phần 2)
Tháng 04/2026
Trong phần đầu tiên của bài viết này, chúng ta đã thảo luận về mô hình probit đa thức (multinomial probit model) từ góc độ mô hình tiện ích ngẫu nhiên (random utility model). Trong phần này, chúng ta sẽ xem xét kỹ hơn về cách giải thích kết quả ước lượng của mô hình. Chúng ta sẽ sử dụng một tập dữ liệu giả định về các cá nhân được cung cấp ba gói bảo hiểm sức khỏe (Sickmaster, Allgood và Cowboy Health). Chúng ta giả định có một mẫu ngẫu nhiên gồm những người từ 20 đến 60 tuổi được hỏi gói nào họ sẽ chọn nếu phải đăng ký một trong số đó. Tiện ích của một người đối với mỗi trong ba phương án được kỳ vọng là một hàm của cả đặc điểm cá nhân (thu nhập hộ gia đình và tuổi) và đặc điểm của gói bảo hiểm (giá bảo hiểm). Chúng ta đã sử dụng lệnh `asmprobit` của Stata để ước lượng mô hình. Giải Thích Kết Quả Ước Lượng Của Chúng Ta Như Thế Nào? Dưới đây là kết quả từ lệnh `asmprobit` và ma trận hiệp phương sai của sai số chênh lệch đã được ước lượng:
cover
Tạo bảng thống kê kiểm định giả thuyết với tùy chọn lệnh trong stata 17
Tháng 04/2026
Trong phân tích dữ liệu y sinh và dịch tễ học, việc so sánh các chỉ số giữa các nhóm đối tượng là bước không thể thiếu. Trước khi đi sâu vào mô hình hồi quy, các nhà nghiên cứu thường cần một bảng tổng hợp kết quả kiểm định giả thiết để đánh giá sự khác biệt trung bình hoặc phân phối. Bài viết này sẽ hướng dẫn bạn cách tận dụng tùy chọn lệnh trong cấu trúc bảng của phiên bản mới, biến các đầu ra của kiểm định thống kê thành một báo cáo chuẩn học thuật chỉ bằng vài dòng mã gọn gàng. Chuẩn bị dữ liệu và nền tảng kiểm định Chúng ta bắt đầu bằng cách tải bộ dữ liệu khảo sát sức khỏe quốc gia đã được tích hợp sẵn. Mục tiêu cụ thể ở đây là so sánh các chỉ số sinh học và nhân trắc học giữa nhóm có tiền sử tăng huyết áp và nhóm không có. Biến mã hóa nhóm là highbp.
cover
Tại sao bạn không nên dùng phương pháp điền giá trị trung bình cho dữ liệu bị thiếu
Tháng 03/2026
Trong quá trình thực hiện kiểm định giả thuyết không hoặc xây dựng mô hình hồi quy, chúng ta thường xuyên phải đối mặt với bài toán xử lý dữ liệu bị thiếu. Một lời khuyên rất phổ biến là thực hiện điền giá trị trung bình. Cách làm này hiểu đơn giản là thay thế bất kỳ giá trị nào bị khuyết bằng trung bình của biến số đó, được tính toán từ các quan sát hiện có. Tuy nhiên, phương pháp này mang lại những rủi ro ngầm và trong nhiều trường hợp còn tệ hơn là bỏ qua dữ liệu thiếu. Hãy cùng sử dụng ngôn ngữ lập trình để chứng minh điều này. Tác động đến phương sai và độ lệch chuẩn Để bắt đầu, chúng ta sẽ mô phỏng một vector dữ liệu có tên là x tuân theo phân phối chuẩn ngẫu nhiên.
cover
Tích hợp stata và python: làm việc với api và dữ liệu json
Tháng 03/2026
Dữ liệu hiện diện ở khắp mọi nơi. Các cơ quan chính phủ, tổ chức tài chính, trường đại học và nền tảng mạng xã hội thường cung cấp quyền truy cập dữ liệu của họ thông qua API. Hệ thống này đóng vai trò như một cầu nối, thường trả về khối dữ liệu được yêu cầu dưới định dạng tệp JSON. Việc nắm vững cách sử dụng Python để gửi các truy vấn API và xử lý dữ liệu JSON thu được ngay bên trong môi trường Stata là một kỹ năng cực kỳ hữu ích cho quá trình phân tích dữ liệu hiện đại. Khái quát về cấu trúc API và định dạng JSON API là một phần mềm trung gian cho phép hệ thống của bạn yêu cầu dữ liệu từ một hệ thống máy tính khác. Cú pháp truy vấn thường mang tính đặc thù tùy thuộc vào từng hệ thống cung cấp, nhưng một cấu trúc điển hình luôn bắt đầu bằng một URL theo sau là các tùy chọn tham số. Bài viết này sẽ lấy ví dụ về việc sử dụng hệ thống openFDA để truy xuất dữ liệu về các biến cố bất lợi của thuốc từ Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ. Chúng ta hoàn toàn có thể thêm các điều kiện lọc vào lời gọi API để thu hẹp phạm vi dữ liệu trả về. Dữ liệu này hiển thị dưới dạng JSON, một định dạng lưu trữ phổ biến được cấu trúc bởi tập hợp các cặp khóa và giá trị. Khóa hoạt động tương tự như một biến số trong tập dữ liệu Stata, còn giá trị chính là dữ liệu thực tế được ghi nhận.
cover
Mô hình hiệu ứng hỗn hợp: mở rộng mô hình hồi quy tuyến tính tổng quát với r
Tháng 03/2026
Trong bài phân tích trước, chúng ta đã làm quen với mô hình tuyến tính tổng quát thông qua một tập dữ liệu khá đặc biệt: số ca tử vong do ngựa đá trong quân đội Phổ. Tập dữ liệu này đếm số lượng tử vong của các quân đoàn qua từng năm. Vì đây là dữ liệu đếm, chúng ta đã điều chỉnh mô hình tuyến tính để sử dụng phân phối Poisson, đồng thời áp dụng hàm liên kết log. Tuy nhiên, có một khía cạnh mà chúng ta chưa xem xét: liệu tất cả các quân đoàn có tỷ lệ tử vong giống hệt nhau không? Khám phá dữ liệu theo từng nhóm Trước tiên, chúng ta cần thiết lập môi trường trong R.
cover
Cách tạo bản đồ choropleth động sử dụng dữ liệu covid-19 từ đại học johns hopkins
Tháng 03/2026
Trong các phân tích dữ liệu không gian, việc theo dõi sự thay đổi qua thời gian và địa điểm là một kỹ năng quan trọng. Sau khi đã nắm vững cách tải dữ liệu từ kho lưu trữ GitHub, vẽ đồ thị chuỗi thời gian và tạo bản đồ choropleth tĩnh, bước tiếp theo là đưa dữ liệu vào không gian chuyển động. Bài viết này sẽ hướng dẫn bạn cách tạo một bản đồ choropleth động để khám phá sự phân bố của dịch bệnh qua từng ngày. Cách tạo bản đồ cho từng ngày Để bắt đầu, chúng ta cần làm sạch và mô tả dữ liệu thô. Dữ liệu này chứa số lượng ca nhiễm tích lũy cho từng quận tại Mỹ bắt đầu từ cuối tháng 1 năm 2020. Các biến số lưu trữ dữ liệu theo ngày được đặt tên theo định dạng từ v12 đến v86. Quá trình chuẩn bị dữ liệu đòi hỏi chúng ta phải hợp nhất dữ liệu địa lý, dữ liệu ca bệnh và dữ liệu dân số. Chúng ta sử dụng dấu hoa thị như một wildcard trong lệnh gọi biến để giữ lại toàn bộ các cột ngày tháng.
cover
Học mô phỏng pk/pd: phân tích monte carlo cơ bản với mrgsolve trong r
Tháng 03/2026
Mô phỏng dược động học và dược lực học luôn là một lĩnh vực đầy thách thức đối với những người làm khoa học dữ liệu trong mảng y sinh. Thay vì chỉ đọc các tài liệu nghiên cứu với những con số mô hình hóa phức tạp, việc trực tiếp viết mã lệnh để thực hiện phân tích Monte Carlo mang lại một góc nhìn trực quan và sâu sắc hơn rất nhiều. Quá trình tính toán xác suất đạt mục tiêu của các nồng độ ức chế tối thiểu khác nhau không chỉ giúp củng cố lý thuyết mà còn mở ra những câu hỏi thú vị về cách thuốc phân bố trong cơ thể. Bài viết này sẽ trình bày cách xây dựng một mô hình cơ bản với gói mrgsolve trong R để mô phỏng nồng độ thuốc ceftriaxone, đồng thời đánh giá tác động của các biến số lâm sàng như độ thanh thải creatinine và tình trạng giảm albumin máu. Dược động học quần thể và các tham số quan trọng Dược động học quần thể là một phương pháp thống kê mô tả cách các loại thuốc hoạt động trong cơ thể qua các nhóm người khác nhau, có tính đến sự biến thiên giữa các cá thể. Thay vì nghiên cứu sâu một người, phương pháp này phân tích dữ liệu thưa thớt từ nhiều bệnh nhân để hiểu hành vi dùng thuốc điển hình và lý do tại sao mọi người lại khác nhau về mức độ phơi nhiễm thuốc. Khi phân tích một nghiên cứu dược động học quần thể, việc xác định đúng các tham số là bước nền tảng. Dựa trên mô hình đánh giá ceftriaxone ở bệnh nhân nhiễm trùng huyết nặng, chúng ta có thể tập trung vào các thông số sau:
cover
Tạo dữ liệu tổng hợp với r-vine copulas thông qua esgtoolkit trong r
Tháng 03/2026
R-vine copulas là một công cụ phân tích mạnh mẽ giúp mô hình hóa sự phụ thuộc phức tạp giữa nhiều biến số trong một tập dữ liệu. Việc tạo ra dữ liệu tổng hợp nhằm phục vụ cho kiểm thử mô hình hoặc chia sẻ thông tin mà không làm lộ dữ liệu nhạy cảm đang trở thành một nhu cầu thiết yếu. Gói esgtoolkit trong R cung cấp một giao diện trực quan và tối ưu để huấn luyện các mô hình R-vine copula, đồng thời mô phỏng sinh ra dữ liệu mới bảo toàn chặt chẽ các đặc tính thống kê của dữ liệu gốc. Chuẩn bị môi trường và dữ liệu đầu vào Để bắt đầu, chúng ta cần cài đặt gói esgtoolkit từ kho lưu trữ. Trong bài viết này, tập dữ liệu chuỗi thời gian EuStockMarkets bao gồm các chỉ số chứng khoán châu Âu như DAX, SMI, CAC và FTSE sẽ được sử dụng làm minh họa. Dữ liệu này được chuyển đổi sang dạng tỷ suất sinh lợi logarit thông qua hàm có sẵn của gói.
cover
Phân tích độ bất định: so sánh lợi nhuận giữa vàng và bitcoin
Tháng 03/2026
Gần đây, viện nghiên cứu Deutsche Bank đã công bố một báo cáo đáng chú ý, nhận định rằng Bitcoin đang trải qua một quá trình tương tự như những gì vàng đã trải qua trong suốt một trăm năm qua. Theo báo cáo này, sự chấp nhận ngày càng tăng cùng với việc giảm thiểu biến động có thể biến Bitcoin thành một tài sản dự trữ mà các ngân hàng trung ương có thể cân nhắc nắm giữ vào năm 2030. Sự hội tụ trong phân phối lợi nhuận Để kiểm chứng nhận định từ Deutsche Bank, chúng ta cần xem xét dữ liệu thực tế về phân phối lợi nhuận hàng tháng của hai loại tài sản này. Sự thay đổi trong mức độ biến động của chuỗi thời gian sẽ phản ánh mức độ trưởng thành của tài sản. Biểu đồ phân tích độ bất định dưới đây xác nhận trực quan cho nhận định trên. Đặc biệt trong hai năm trở lại đây, vàng và Bitcoin đã có sự hội tụ đáng kể về mặt phân phối lợi nhuận, cho thấy tính chất dao động của Bitcoin đang dần ổn định hơn so với những năm trước.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội