messenger_logo
Liên hệ qua Messenger
SciEco
Bài viết.
Bài viết từ trang scienceforeconomics.com
cover
Mô hình hồi quy tự vectơ cấu trúc là một công cụ mạnh mẽ trong kinh tế lượng vĩ mô, giúp chúng ta nhận diện các cú sốc kinh tế và đánh giá tác động của chúng qua thời gian. Trong bài viết này, chúng ta sẽ tìm hiểu cách thiết lập các ràng buộc dài hạn trong mô hình này bằng cách tái hiện lại nghiên cứu kinh điển của hai tác giả Blanchard và Quah năm 1989 trên phần mềm Stata. Khung Lý Thuyết Cơ Bản Trong các nghiên cứu trước đây về hồi quy tự vectơ cấu trúc, việc nhận diện các tham số thường dựa trên các ràng buộc ngắn hạn, tức là cách các cú sốc tác động ngay lập tức lên các biến nội sinh tại thời điểm xảy ra cú sốc. Ngược lại, Blanchard và Quah đạt được sự nhận diện bằng cách áp dụng các ràng buộc lên tác động dài hạn của các cú sốc, tức là phản ứng giới hạn của một biến nội sinh khi thời gian tiến về vô hạn. Trong một hệ hồi quy tự vectơ dừng, phản ứng của mỗi biến đối với từng cú sốc phải tiến về không trong dài hạn. Blanchard và Quah phân tích một hệ thống gồm tổng sản phẩm quốc gia thực tế GNP và tỷ lệ thất nghiệp, trong đó tốc độ tăng trưởng GNP và mức thất nghiệp được giả định là các chuỗi dừng. Hệ thống này có hai cú sốc là cú sốc cung và cú sốc cầu. Phản ứng dài hạn của tăng trưởng GNP và thất nghiệp đối với các cú sốc này phải bằng không vì các biến này là dừng.
cover
Một biểu đồ xuất sắc không chỉ dừng lại ở việc hiển thị số liệu chính xác mà còn phải truyền tải thông điệp một cách hiệu quả nhất. Tùy thuộc vào mục đích truyền thông, bạn có thể cần một biểu đồ phù hợp với tiêu chuẩn nghiêm ngặt của các tạp chí khoa học, một biểu đồ có màu sắc tương phản cao để người đọc dễ dàng phân biệt, hoặc đơn giản là một biểu đồ tối giản với tông màu xám cổ điển. Hành trình thiết kế này thường bắt đầu từ việc vẽ một biểu đồ thô từ dữ liệu nghiên cứu, sau đó từng bước biến đổi diện mạo của nó để đạt được phong cách mong muốn. Stata cung cấp cho người dùng những công cụ vô cùng mạnh mẽ để thực hiện việc này một cách nhanh chóng và có hệ thống. Khởi đầu với biểu đồ mặc định trong Stata Để minh họa cho quá trình tùy biến, chúng ta sẽ bắt đầu với một biểu đồ kết hợp nhiều thành phần bao gồm biểu đồ phân tán của các điểm dữ liệu thực tế, đường xu hướng từ mô hình ước lượng và vùng biểu diễn khoảng tin cậy.
cover
Trong giới khoa học dữ liệu, cuộc tranh luận giữa việc sử dụng Python hay R chưa bao giờ kết thúc. Python sở hữu thế mạnh vượt trội về khả năng tích hợp hệ thống, xử lý học sâu và xây dựng ứng dụng thực tế. Trong khi đó, R lại là ông vua trong lĩnh vực phân tích thống kê chuyên sâu, dự báo chuỗi thời gian và sở hữu các gói thư viện được thiết kế tối ưu bởi cộng đồng các nhà thống kê học. Thay vì phải đau đầu lựa chọn một trong hai ngôn ngữ, việc kết hợp sức mạnh của cả hai ngay trong một quy trình làm việc là giải pháp tối ưu nhất. Thư viện rtopy chính là cầu nối hiện đại giúp bạn thực hiện điều này một cách mượt mà. Bài viết này sẽ giới thiệu những cải tiến mới nhất của thư viện rtopy, giúp việc chuyển dịch và gọi mã nguồn R từ Python trở nên đơn giản hơn bao giờ hết. Cài đặt các công cụ cần thiết Để bắt đầu, bạn cần cài đặt thư viện rtopy trong môi trường Python và một số gói thư viện R phổ biến phục vụ cho việc tính toán thống kê và học máy.
cover
Việc hiển thị các tọa độ địa lý trên bản đồ tương tác là một kỹ thuật quen thuộc đối với các nhà phân tích dữ liệu không gian. Bằng cách sử dụng công cụ dòng lệnh exiftool, chúng ta có thể dễ dàng trích xuất toàn bộ thông tin định vị toàn cầu từ một thư mục chứa ảnh định dạng JPG và xuất ra tệp CSV để xử lý. Tuy nhiên, bên cạnh vĩ độ và kinh độ, các thiết bị di động hiện đại còn ghi lại một thông số cực kỳ thú vị là hướng của ống kính camera tại thời điểm bấm máy, được lưu trữ trong thẻ siêu dữ liệu GPSImgDirection. Việc thể hiện được hướng nhìn này trên bản đồ bằng các biểu tượng có khả năng xoay tự động sẽ giúp trực quan hóa hành trình một cách sinh động và chính xác hơn nhiều. Bài viết này sẽ hướng dẫn cách hiện thực hóa ý tưởng đó bằng thư viện leaflet trong môi trường R. Chuẩn bị dữ liệu từ siêu dữ liệu ảnh chụp Bước đầu tiên là trích xuất các thông tin định vị từ ảnh chụp. Công cụ exiftool tỏ ra cực kỳ hiệu quả cho tác vụ này. Bạn có thể mở cửa sổ dòng lệnh và chạy cú pháp sau để quét toàn bộ thư mục ảnh và lưu kết quả vào tệp CSV.
cover
Kết hợp mô hình bất kỳ với garch(1,1) để dự báo xác suất giá chứng khoán
Tháng 06/2026
Trong lĩnh vực phân tích tài chính, việc dự báo giá trị tương lai của cổ phiếu luôn là một thách thức lớn do tính chất biến động liên tục và khó lường của thị trường. Dự báo điểm đơn thuần thường không cung cấp đủ thông tin cho các nhà đầu tư và nhà quản lý rủi ro, bởi vì nó bỏ qua mức độ bất định xung quanh dự báo đó. Để giải quyết vấn đề này, dự báo xác suất đã trở thành một công cụ quan trọng, giúp cung cấp cả giá trị kỳ vọng lẫn khoảng tin cậy của dự báo. Bài viết này sẽ hướng dẫn cách kết hợp một mô hình dự báo xu hướng trung bình bất kỳ với mô hình GARCH(1,1) để nắm bắt cả giá trị trung bình có điều kiện lẫn phương sai có điều kiện của tỷ suất sinh lời chứng khoán. Phương pháp này giúp tạo ra các khoảng dự báo xác suất động, phản ánh chân thực mức độ biến động của thị trường theo thời gian. Phương pháp tiếp cận linh hoạt trong dự báo tài chính Mô hình hóa chuỗi thời gian tài chính thường đòi hỏi phải giải quyết hai thành phần chính: xu hướng trung bình và cấu trúc biến động của sai số. Các mô hình truyền thống thường giả định phương sai của sai số là không đổi, điều này hoàn toàn không phù hợp với thực tế thị trường chứng khoán, nơi thường xuyên xảy ra hiện tượng cụm biến động.
cover
Nhập dữ liệu từ nền tảng wrds vào stata: hướng dẫn chi tiết
Tháng 06/2026
WRDS là một nền tảng nghiên cứu và công cụ thông tin kinh doanh hàng đầu, phục vụ hàng trăm tổ chức học thuật, doanh nghiệp và chính phủ trên toàn cầu. Nếu tổ chức của bạn đăng ký WRDS, bạn có thể dễ dàng truy cập dữ liệu từ WRDS từ xa thông qua lệnh `odbc` của Stata. Bài viết này sẽ hướng dẫn bạn từng bước thiết lập kết nối và nhập dữ liệu trực tiếp vào môi trường Stata để phục vụ cho các phân tích định lượng. Kết Nối WRDS Từ Stata WRDS cung cấp một kho dữ liệu khổng lồ, bao gồm thông tin tài chính, kinh tế, chứng khoán và dữ liệu doanh nghiệp từ nhiều nguồn uy tín. Việc có thể truy cập và xử lý trực tiếp các bộ dữ liệu này trong Stata không chỉ giúp các nhà nghiên cứu tiết kiệm thời gian mà còn nâng cao hiệu quả công việc. Lệnh `odbc` trong Stata đóng vai trò cầu nối, cho phép phần mềm này tương tác với các cơ sở dữ liệu bên ngoài như WRDS thông qua giao thức ODBC. Cài Đặt Trình Điều Khiển ODBC
cover
Mô phỏng dược động học quần thể để đánh giá khả năng đạt mục tiêu điều trị của piperacillin và tazobactam trên trực khuẩn mủ xanh
Tháng 06/2026
Trực khuẩn mủ xanh Pseudomonas aeruginosa là một trong những tác nhân gây nhiễm trùng bệnh viện nguy hiểm và thách thức nhất hiện nay. Trong thực hành lâm sàng, sự kết hợp giữa piperacillin và tazobactam là một trong những vũ khí chủ lực để đối phó với tác nhân này. Tuy nhiên, việc tối ưu hóa liều lượng để đảm bảo hiệu quả diệt khuẩn tối đa vẫn là một bài toán phức tạp đòi hỏi sự hỗ trợ của khoa học dữ liệu. Vào tháng hai năm 2024, Cơ quan Quản lý Thực phẩm và Dược phẩm Hoa Kỳ FDA đã đưa ra một tuyên bố quan trọng liên quan đến điểm gãy nhạy cảm phụ thuộc liều lượng của trực khuẩn mủ xanh ở mức 16 microgram trên mililit. FDA khuyến cáo nên sử dụng liều 4.5 gram mỗi 6 giờ truyền kéo dài trong 3 giờ thay vì phương pháp truyền tĩnh mạch tiêu chuẩn trong 30 phút, vì phương pháp tiêu chuẩn không đạt được khả năng đạt mục tiêu điều trị trên 90 phần trăm. Bài viết này sẽ sử dụng ngôn ngữ lập trình R và thư viện mrgsolve để xây dựng mô hình dược động học quần thể, tiến hành mô phỏng và phân tích sâu về vấn đề này. Xây dựng mô hình dược động học quần thể Để mô phỏng chính xác nồng độ thuốc trong cơ thể, chúng ta cần một mô hình dược động học quần thể tối ưu. Chúng ta sẽ sử dụng một mô hình gộp phức tạp được xây dựng từ nhiều nhóm bệnh nhân khác nhau từ trẻ sơ sinh đến người cao tuổi. Dưới đây là mã nguồn R để thiết lập mô hình mrgsolve tập trung vào nồng độ piperacillin tự do không liên kết với protein, vốn là thành phần quyết định hiệu quả kháng khuẩn.
cover
Hiệu chỉnh sai số gộp khi so sánh cặp bằng gói emmeans trong r
Tháng 06/2026
Trong nghiên cứu thực nghiệm, việc thực hiện nhiều phép so sánh cặp cùng một lúc là vô cùng phổ biến. Tuy nhiên, nếu chúng ta chỉ sử dụng các kiểm định t thông thường mà không hiệu chỉnh, tỷ lệ sai số loại một trên toàn bộ họ kiểm định sẽ tăng lên rất nhanh. Khi đó, việc sử dụng các giá trị p hiệu chỉnh là bắt buộc để đảm bảo tính tin cậy của các kết luận thống kê. Bài viết này sẽ hướng dẫn cách xử lý vấn đề đa so sánh bằng gói lệnh emmeans trong ngôn ngữ R, đồng thời giải thích bản chất thống kê từ phân phối đơn biến đến đa biến. Thực Nghiệm Và Mô Hình Phân Tích Phương Sai Một Chiều Chúng ta sẽ bắt đầu với một bộ dữ liệu thực tế về khả năng diệt cỏ của ba hỗn hợp hóa chất so với nhóm đối chứng không xử lý trên cây cỏ dại thuộc họ cà trong ruộng cà chua. Biến phản hồi là khối lượng của cây cỏ dại trong mỗi chậu, và biến giải thích là các công thức xử lý cỏ.
cover
Tạo dữ liệu giả lập đa biến với r-vine copula bằng thư viện esgtoolkit trong r
Tháng 06/2026
Trong phân tích tài chính và quản trị rủi ro, việc mô phỏng dữ liệu đồng thời của nhiều tài sản mà vẫn giữ nguyên được cấu trúc phụ thuộc phức tạp là một thách thức lớn. Các phương pháp mô hình hóa truyền thống thường dựa vào giả định phân phối chuẩn, vốn dễ dàng thất bại khi đối mặt với dữ liệu thực tế có phân phối đuôi dày hoặc mối quan hệ phi tuyến. Để giải quyết vấn đề này, phương pháp R-vine copula nổi lên như một công cụ mạnh mẽ, cho phép chúng ta ghép nối các phân phối biên khác nhau thành một phân phối chung một cách linh hoạt. Bài viết này sẽ hướng dẫn cách sử dụng thư viện esgtoolkit trong ngôn ngữ R để xây dựng mô hình R-vine copula và tạo dữ liệu giả lập chất lượng cao. Tìm hiểu về R-vine copula và thư viện esgtoolkit Copula là một hàm toán học dùng để liên kết các phân phối biên của các biến ngẫu nhiên đơn lẻ nhằm tạo ra một phân phối đồng thời. Trong số các cấu trúc copula, vine copula phân rã phân phối đồng thời đa chiều thành các cặp copula hai chiều thông qua một cấu trúc dạng cây liên kết. Điều này giúp kiểm soát tốt các mối quan hệ phụ thuộc không đối xứng ở vùng đuôi, một hiện tượng cực kỳ phổ biến trong dữ liệu tài chính khi thị trường sụt giảm mạnh cùng một lúc. Thư viện esgtoolkit cung cấp một giao diện lập trình trực quan và tối ưu hóa để ước lượng các tham số của mô hình R-vine copula, đồng thời chạy các lượt mô phỏng thử nghiệm để tìm ra bộ dữ liệu giả lập khớp nhất với dữ liệu thực tế.
cover
Cập nhật cực chất trên flextable 0.9.11: đồng bộ hóa biểu đồ và trình bày quarto đỉnh cao
Tháng 06/2026
Thư viện flextable phiên bản mới nhất 0.9.11 đã chính thức xuất hiện trên CRAN, mang lại những cải tiến vượt trội giúp đơn giản hóa quy trình báo cáo dữ liệu của bạn. Trong bản cập nhật lần này, hai tính năng nổi bật nhất chính là sự tích hợp mượt mà với patchwork và khả năng hỗ trợ định dạng Quarto trực tiếp trong từng ô dữ liệu thông qua hàm as_qmd. Hãy cùng khám phá xem những công cụ này sẽ thay đổi cách chúng ta thiết kế các bảng biểu báo cáo khoa học dữ liệu như thế nào. Tích hợp patchwork: Thiết kế bố cục biểu đồ và bảng số liệu chuyên nghiệp Trước đây, việc căn chỉnh một bảng số liệu nằm song song hoặc đồng bộ với một biểu đồ thường đòi hỏi rất nhiều công sức căn chỉnh thủ công. Giờ đây, với sự hỗ trợ của patchwork, quy trình này trở nên vô cùng đơn giản. Hàm mới wrap_flextable cho phép biến đổi các đối tượng flextable thành các thành phần có thể dễ dàng ghép nối bằng các toán tử cộng, vạch đứng hoặc gạch chéo của patchwork. Để minh họa, chúng ta sẽ xây dựng một biểu đồ quả tạ biểu diễn số liệu thống kê của các đội bóng tại giải Bundesliga, sau đó ghép nối nó với một bảng số liệu tương ứng.
cover
Khai thác dữ liệu facebook trên stata: phương pháp tích hợp và thiết lập hệ thống truy vấn
Tháng 06/2026
Dữ liệu mạng xã hội đã trở thành một nguồn tài nguyên vô giá cho các nghiên cứu xã hội học, hành vi người dùng và phân tích thị trường. Bên cạnh các nguồn dữ liệu truyền thống, việc thu thập thông tin từ Facebook luôn là mục tiêu quan trọng của các nhà nghiên cứu dữ liệu. Để hỗ trợ quá trình này, công cụ facebook2stata được phát triển nhằm giúp người dùng kết nối trực tiếp Stata với hệ thống dữ liệu của Facebook. Bài viết này sẽ hướng dẫn chi tiết cách cài đặt, cấu hình mã xác thực và thực hiện các truy vấn cơ bản từ Facebook vào môi trường làm việc của Stata. Cài đặt công cụ facebook2stata Để bắt đầu, bạn cần cài đặt gói lệnh facebook2stata từ máy chủ của Stata. Việc cài đặt vô cùng đơn giản bằng cách khởi chạy dòng lệnh sau trong cửa sổ dòng lệnh của phần mềm.
cover
Hiểu sâu về độ lệch phương sai và khả năng ước lượng song trùng bền vững của tmle qua giả lập dữ liệu bằng r
Tháng 06/2026
Phương pháp ước lượng tối đa khả dĩ mục tiêu thường được gọi là TMLE là một công cụ mạnh mẽ trong phân tích nhân quả. Nhiều nhà nghiên cứu từng nghe về đặc tính song trùng bền vững của phương pháp này nhưng chỉ thực sự thấu hiểu nó khi tiến hành giả lập dữ liệu thực tế. Phương pháp này hoạt động cực kỳ hiệu quả khi một trong hai mô hình kết quả hoặc mô hình điều trị được thiết lập chính xác. Việc kết hợp thuật toán XGBoost cùng TMLE giúp tự động bắt trọn các mối quan hệ phức tạp trong dữ liệu mà không cần phải khai báo các tương tác thủ công. Bài viết này sẽ đi sâu vào cơ chế vận hành của phương pháp thông qua việc giả lập dữ liệu cụ thể trong môi trường R. Khái Niệm Về Tmle TMLE là một phương pháp thống kê tiên tiến được sử dụng để ước lượng các tác động nhân quả trong các nghiên cứu quan sát và thử nghiệm lâm sàng. Phương pháp này kết hợp linh hoạt giữa các thuật toán học máy và kỹ thuật thống kê truyền thống nhằm mang lại các ước lượng vững cho hiệu quả tác động của can thiệp, đồng thời kiểm soát tốt các yếu tố nhiễu. Quy trình vận hành của TMLE gồm hai giai đoạn chính. Đầu tiên, hệ thống sẽ ước lượng mô hình kết quả và mô hình điều trị. Sau đó, các ước lượng này được sử dụng để hiệu chỉnh nhằm hướng trực tiếp đến tham số mục tiêu cần nghiên cứu. Cách tiếp cận này đặc biệt hữu ích trong các bối cảnh mà phương pháp truyền thống dễ bị lệch hoặc hoạt động kém hiệu quả do sự xuất hiện của các mối quan hệ phi tuyến phức tạp.
cover
Kiểm định thông số kỹ thuật mô hình và sử dụng phiên bản chương trình gmm
Tháng 06/2026
Trong phân tích khoa học dữ liệu, việc ước lượng tham số mô hình là một bước quan trọng, nhưng việc đảm bảo mô hình được chỉ định chính xác còn thiết yếu hơn. Bài viết này sẽ đi sâu vào cách kiểm định thông số kỹ thuật mô hình bằng phương pháp momen tổng quát (GMM) trong Stata, đặc biệt khi làm việc với các mô hình nhận dạng thừa. Chúng ta sẽ khám phá cách sử dụng phiên bản chương trình của lệnh GMM, vốn rất hữu ích cho các mô hình phức tạp, và cách kiểm định các ràng buộc nhận dạng thừa bằng thống kê J của Hansen. Mô Hình Poisson Với Biến Giải Thích Nội Sinh Chúng ta sẽ sử dụng GMM để ước lượng các tham số của một mô hình Poisson có biến giải thích nội sinh. Biến giải thích nội sinh là những biến có thể tương quan với thành phần sai số của mô hình, dẫn đến ước lượng không nhất quán nếu không được xử lý đúng cách. Mô hình hồi quy Poisson của biến phụ thuộc y_i trên các biến ngoại sinh x_i và biến nội sinh y_{2,i} có dạng kỳ vọng của y_i với điều kiện các biến x_i, y_{2,i} và biến nhiễu epsilon_i được biểu thị qua hàm mũ của tổng beta_1 nhân x_i cộng beta_2 nhân y_{2,i}, rồi cộng thêm biến nhiễu epsilon_i. Biến nhiễu epsilon_i có giá trị trung bình bằng 0. Các biến giải thích y_{2,i} có thể tương quan với epsilon_i. Công thức này tương tự như công thức của lệnh ivpoisson với các sai số cộng gộp.
cover
Tận dụng các mô hình ai trong stata: chạy chatgpt, claude, gemini và grok
Tháng 05/2026
Bài viết này khám phá cách cập nhật và tạo các lệnh Stata để tích hợp với những mô hình AI phổ biến như ChatGPT, Claude, Gemini và Grok. Sau khi bài đăng trước về lệnh Stata để chạy ChatGPT trở nên phổ biến, những thay đổi trong mã API của OpenAI đã khiến lệnh đó không còn hoạt động. Mục tiêu của chúng tôi là hướng dẫn bạn cách điều chỉnh mã API và viết các lệnh Stata tương tự để tận dụng sức mạnh của các công cụ AI khác nhau trực tiếp từ môi trường Stata. Trọng tâm của bài viết này, cũng như bài trước, là minh họa mức độ dễ dàng để tận dụng các tính năng của PyStata nhằm kết nối với ChatGPT và các công cụ AI khác, thay vì đưa ra lời khuyên về cách sử dụng các công cụ AI để trả lời các câu hỏi cụ thể của Stata. Do đó, các ví dụ chỉ đơn giản là yêu cầu một bài haiku về Stata. Tuy nhiên, bạn có thể truyền bất kỳ yêu cầu nào mà bạn thấy hữu ích trong quy trình làm việc của mình với Stata. Tổng Quan Về Tích Hợp Stata/Python Chúng tôi giả định rằng bạn đã quen thuộc với tích hợp Stata/Python và cách viết lệnh chatgpt ban đầu. Nếu các chủ đề này còn lạ lẫm, bạn nên đọc các bài đăng trên blog dưới đây:
cover
Lập trình lệnh ước lượng trong stata: kích hoạt chức năng predict
Tháng 05/2026
Trong lập trình các lệnh ước lượng tùy chỉnh trong Stata, việc đảm bảo chức năng `predict` hoạt động chính xác sau khi chạy mô hình là một yếu tố quan trọng để người dùng có thể trích xuất các dự đoán hiệu quả. Bài viết này sẽ hướng dẫn cách xây dựng một ado-command riêng biệt để tính toán các giá trị dự đoán và tích hợp nó vào lệnh ước lượng chính, từ đó mở rộng khả năng phân tích dữ liệu. Một Lệnh Ado Để Tính Toán Dự Đoán Theo quy ước, một ado-command dùng để tính toán các dự đoán cho lệnh ước lượng `mytest` sẽ được đặt tên là `mytest_p`. Trong trường hợp này, chúng ta sẽ xem xét `mypoisson5_p`, ado-command chịu trách nhiệm tính toán dự đoán sau khi chạy lệnh `mypoisson5`. Cú pháp của `mypoisson5_p` được định nghĩa như sau:
cover
Nâng tầm quản lý dữ liệu trong stata: framesets và biến số bí danh
Tháng 05/2026
Trong thế giới khoa học dữ liệu hiện đại, việc phân tích các bộ dữ liệu khổng lồ và phức tạp là một thách thức không ngừng. Các nhà nghiên cứu thường phải làm việc với nhiều bộ dữ liệu liên quan cùng một lúc, đòi hỏi các công cụ quản lý dữ liệu hiệu quả và linh hoạt. Stata, với lịch sử lâu đời trong việc xử lý và phân tích dữ liệu, đã liên tục đổi mới để đáp ứng những nhu cầu này. Stata 18, ra mắt vào năm 2023, tiếp tục nâng cao khả năng này bằng cách giới thiệu hai tính năng đột phá: framesets và biến số bí danh giữa các frames. Những cải tiến này cho phép người dùng quản lý và tương tác với nhiều bộ dữ liệu, có thể rất lớn, một cách hiệu quả và thuận tiện hơn bao giờ hết. Framesets cho phép bạn nhóm, lưu trữ trên ổ đĩa và tải vào bộ nhớ một tập hợp các frames chứa bộ dữ liệu liên quan. Biến số bí danh cho phép bạn truy cập các biến số trong các frames khác như thể chúng là một phần của frame hiện tại, với chi phí bộ nhớ rất thấp. Bài viết này sẽ đi sâu vào cách những tính năng này cách mạng hóa quy trình làm việc dữ liệu trong Stata. Quản Lý Dữ Liệu Trong Stata: Hành Trình Phát Triển Từ khi Stata 1.0 ra đời vào năm 1985, dữ liệu đã được tổ chức dưới dạng bảng với các quan sát (hàng) và biến số (cột), được gọi là bộ dữ liệu. Các bộ dữ liệu này được lưu trữ hoàn toàn trong bộ nhớ và ghi vào ổ đĩa dưới dạng tệp .dta. Các kiểu dữ liệu, như số nguyên, số thực và đặc biệt là chuỗi, được quản lý một cách tiết kiệm. Hầu hết các lệnh ban đầu của Stata, bao gồm generate, replace và list không thể thiếu, đều tập trung vào quản lý dữ liệu.
cover
Kiểm định nghiệm đơn vị trong stata: phân biệt xu hướng ngẫu nhiên và tất định
Tháng 05/2026
Việc xác định tính dừng của một chuỗi thời gian là bước quan trọng hàng đầu trước khi bắt đầu bất kỳ phân tích chuyên sâu nào. Hầu hết các đặc tính thống kê của những mô hình ước lượng trong chuỗi thời gian đều dựa trên giả định rằng dữ liệu phải đạt trạng thái dừng yếu. Nói một cách đơn giản, một quy trình dừng yếu có trung bình, phương sai và hiệp phương sai tự hồi quy không thay đổi theo thời gian. Tuy nhiên, trong thực tế, nhiều chuỗi dữ liệu quan sát được thường chứa các thành phần xu hướng khiến chúng trở nên không dừng. Các xu hướng này có thể là tất định hoặc ngẫu nhiên. Việc phân biệt chính xác loại xu hướng là cực kỳ quan trọng vì mỗi loại yêu cầu một phương pháp xử lý khác nhau để đưa chuỗi về trạng thái dừng. Ví dụ, một xu hướng ngẫu nhiên, thường được gọi là nghiệm đơn vị, có thể được loại bỏ bằng cách lấy sai phân. Ngược lại, nếu chúng ta lấy sai phân một chuỗi có xu hướng tất định, chúng ta sẽ vô tình tạo ra nghiệm đơn vị trong quy trình trung bình trượt. Hiểu về xu hướng ngẫu nhiên và tất định Một ví dụ điển hình của quy trình có xu hướng ngẫu nhiên là bước ngẫu nhiên. Trong mô hình này, giá trị hiện tại được xác định bởi giá trị ngay trước đó cộng với một sai số ngẫu nhiên có trung bình bằng không và phương sai không đổi. Nếu quy trình bắt đầu từ giá trị khởi tạo bằng không, giá trị tại bất kỳ thời điểm nào cũng chính là tổng của các sai số ngẫu nhiên tích lũy. Khi đó, phương sai của chuỗi sẽ tăng dần theo thời gian, khiến chuỗi không đạt được tính dừng.
cover
Tính toán công suất thống kê bằng mô phỏng monte carlo cho mô hình đa cấp và dữ liệu dọc
Tháng 05/2026
Trong các bài viết trước, tôi đã hướng dẫn cách tính công suất thống kê cho kiểm định t, tích hợp mô phỏng vào lệnh power trong Stata, cũng như áp dụng cho mô hình hồi quy tuyến tính và hồi quy logistic. Hôm nay, chúng ta sẽ tiến thêm một bước xa hơn bằng cách ước lượng công suất thống kê cho các mô hình đa cấp và mô hình dữ liệu dọc thông qua mô phỏng. Mục tiêu của chúng ta là xây dựng một chương trình có khả năng tính toán công suất thống kê cho các giá trị tham số khác nhau của mô hình. Ví dụ, chúng ta có thể đánh giá sự thay đổi của công suất khi số lượng quan sát ở cấp độ 1 và cấp độ 2 thay đổi trong một nghiên cứu theo thời gian. Các bước chuẩn bị cho mô phỏng mô hình đa cấp Để thực hiện mô phỏng một cách hệ thống, chúng ta sẽ tuân theo quy trình gồm bảy bước cụ thể. Trong ví dụ này, hãy tưởng tượng bạn đang lập kế hoạch cho một nghiên cứu dọc về trọng lượng của trẻ em và bạn đặc biệt quan tâm đến sự tương tác giữa độ tuổi và giới tính.
cover
Hồi quy logistic bayes với phân phối tiền nghiệm cauchy bằng lệnh bayes
Tháng 05/2026
Stata cung cấp một phương thức đơn giản và tinh tế để thực hiện các mô hình hồi quy Bayes bằng cách thêm tiền tố bayes vào trước các lệnh ước lượng. Với hơn 45 lệnh được hỗ trợ, người dùng có thể linh hoạt lựa chọn giữa các phân phối tiền nghiệm mặc định hoặc tự thiết lập theo nhu cầu nghiên cứu. Trong bài viết này, chúng ta sẽ tìm hiểu cách áp dụng hồi quy logistic Bayes và khám phá sức mạnh của phân phối tiền nghiệm Cauchy đối với các hệ số hồi quy. Một thách thức phổ biến khi làm việc với Bayes là việc lựa chọn phân phối tiền nghiệm. Cách tiếp cận thận trọng thường dùng các tiền nghiệm yếu hoặc không có thông tin để đảm bảo tính khách quan dựa trên dữ liệu. Tuy nhiên, các tiền nghiệm không có thông tin đôi khi không đủ để giải quyết những vấn đề như hiện tượng phân tách hoàn hảo trong hồi quy logistic. Ngược lại, nếu không có kiến thức chuyên gia sâu sắc, việc chọn tiền nghiệm có thông tin cũng không hề dễ dàng. Dựa trên khuyến nghị của Gelman và các cộng sự, việc sử dụng phân phối tiền nghiệm Cauchy thông tin yếu là một giải pháp cân bằng hiệu quả. Chuẩn bị dữ liệu và chuẩn hóa Chúng ta sử dụng bộ dữ liệu Iris nổi tiếng để phân loại hoa. Biến phụ thuộc virg phân biệt loài Iris virginica với các loài khác. Các biến độc lập bao gồm chiều dài và chiều rộng của đài hoa và cánh hoa. Theo khuyến nghị của các nhà nghiên cứu, các biến độc lập nên được chuẩn hóa để có trung bình bằng 0 và độ lệch chuẩn bằng 0.5 trước khi áp dụng phân phối tiền nghiệm Cauchy.
cover
Kiểm định t trong r: hướng dẫn chi tiết và trực quan
Tháng 05/2026
Trong bài viết này, bạn sẽ tìm hiểu kiểm định t là gì và cách thực hiện phương pháp này trong ngôn ngữ lập trình r. Đầu tiên, chúng ta sẽ làm quen với một hàm đơn giản giúp thực hiện kiểm định chỉ với một dòng mã nguồn. Sau đó, chúng ta sẽ cùng khám phá bản chất của kiểm định thông qua việc xây dựng từng bước với dữ liệu thực tế về hành khách tàu Titanic. Kiểm định t là gì Kiểm định t là một quy trình thống kê được sử dụng để kiểm tra xem sự khác biệt giữa hai nhóm có ý nghĩa hay chỉ là do ngẫu nhiên. Trong bài viết này, chúng ta sẽ xem xét dữ liệu từ các hành khách trên tàu Titanic, chia họ thành hai nhóm nam và nữ. Giả sử chúng ta muốn kiểm tra giả thuyết rằng nam giới và nữ giới có độ tuổi trung bình như nhau. Nếu dữ liệu cho thấy phụ nữ trẻ hơn nam giới trung bình 2 tuổi, chúng ta cần đặt câu hỏi: liệu đây là một sự khác biệt thực sự hay chỉ là sự trùng hợp ngẫu nhiên? Kiểm định t sẽ giúp chúng ta trả lời câu hỏi đó. Tại sao kiểm định t lại quan trọng
cover
Trò chơi 20 câu hỏi và mô hình cây quyết định: ai là người chiến thắng?
Tháng 05/2026
Trong trò chơi 20 câu hỏi, chiến thuật thông minh nhất mà chúng ta thường áp dụng là đặt ra những câu hỏi có khả năng chia đôi các lựa chọn còn lại. Cách tiếp cận này có sự tương đồng đáng kinh ngạc với thuật toán cây quyết định trong học máy, dù giữa chúng có một điểm khác biệt căn bản. Một cây quyết định thực tế thường có hành vi giống như đang gian lận. Trong khi người chơi phải tự tìm ra đáp án, thuật toán cây quyết định lại biết trước mục tiêu cuối cùng là gì. Nó cố gắng tìm ra những đặc trưng và giá trị phân tách tốt nhất để tách biệt đối tượng mục tiêu khỏi các dữ liệu còn lại tại mỗi node, nhưng nó cần biết câu trả lời đúng để đưa ra những câu hỏi tối ưu nhất. Đây chính là lý do tại sao khi chúng ta thay đổi đối tượng cần tìm, thuật toán có thể chọn các đặc trưng và điểm phân chia hoàn toàn khác nhau. Xây dựng mô hình cây quyết định với dữ liệu Tổng thống Hoa Kỳ Để thử nghiệm giả thuyết này, tôi đã sử dụng tập dữ liệu về các đời Tổng thống Hoa Kỳ. Một thách thức nhỏ khi xử lý dữ liệu này là một số biến số có quá nhiều giá trị riêng biệt, ví dụ như tên các đảng phái chính trị vào thế kỷ 18. Để mô hình hoạt động hiệu quả hơn, tôi đã tiến hành nhóm các giá trị này lại nhằm giảm bớt sự phức tạp. Ban đầu, tôi thử chọn ngẫu nhiên một vị Tổng thống, nhưng sau đó tôi quyết định chọn Ronald Reagan làm mục tiêu để tạo ra một cấu trúc cây thú vị và gần gũi hơn với cách đặt câu hỏi của con người. Nếu chọn President Garfield, chúng ta có thể có câu hỏi độc đáo về việc ông từng chứng minh định lý Pythagoras, nhưng điều đó có vẻ hơi quá chuyên sâu cho một mô hình tổng quát. Dưới đây là cấu trúc cây quyết định được tạo ra để tìm ra mục tiêu Ronald Reagan:
cover
Dự báo chuỗi thời gian lồng nhau với spark: xu hướng các quỹ etf blockchain
Tháng 05/2026
Thị trường tiền mã hóa vừa chứng kiến một cột mốc lịch sử khi giá Bitcoin chạm ngưỡng 125.664 đô la vào ngày 5 tháng 10. Sự bùng nổ này được thúc đẩy bởi dòng vốn ròng kỷ lục trị giá 3,24 tỷ đô la đổ vào các quỹ ETF Bitcoin giao ngay cùng nhu cầu ngày càng tăng từ công chúng. Trong bối cảnh đó, việc phân tích và dự báo xu hướng của các quỹ hoán đổi danh mục liên quan đến công nghệ blockchain trở nên quan trọng hơn bao giờ hết đối với các nhà đầu tư. Bài viết này sẽ hướng dẫn cách thực hiện dự báo lồng nhau cho hai quỹ ETF blockchain tiêu biểu bằng cách tận dụng sức mạnh tính toán song song của backend Spark. Thiết lập môi trường và thu thập dữ liệu Để bắt đầu, chúng ta cần thiết lập kết nối với Spark và chuẩn bị các thư viện cần thiết trong hệ sinh thái tidymodels và modeltime. Việc sử dụng Spark giúp tăng tốc quá trình huấn luyện mô hình khi xử lý nhiều chuỗi thời gian cùng lúc. Hai quỹ được lựa chọn để phân tích bao gồm Invesco CoinShares Global Blockchain và iShares Blockchain and Tech.
cover
Tích hợp python trong stata phần 2: ba cách sử dụng python trong stata
Tháng 05/2026
Trong bài đăng trước, tôi đã chỉ cho bạn cách cài đặt Python và thiết lập Stata để sử dụng Python. Bây giờ, chúng ta đã sẵn sàng để sử dụng Python. Có ba cách để sử dụng Python trong Stata: gọi Python một cách tương tác, đưa mã Python vào các do-file và ado-file, và thực thi các tệp script Python. Mỗi cách hữu ích trong những trường hợp khác nhau, vì vậy tôi sẽ trình bày cả ba. Các ví dụ được cố tình đơn giản và đôi khi mang tính minh họa. Tôi sẽ trình bày một số ví dụ phức tạp hơn trong các bài đăng sau, nhưng trong bài này, tôi muốn giữ mọi thứ đơn giản. Gọi Python Tương Tác Bạn có thể sử dụng Python một cách tương tác trong Stata bằng cách gõ `python` vào cửa sổ lệnh của Stata.
cover
Sử dụng lasso để suy luận trong các mô hình dữ liệu chiều cao
Tháng 05/2026
Trong nghiên cứu ứng dụng, các mô hình chiều cao, tức là những mô hình có quá nhiều biến giải thích tiềm năng so với kích thước mẫu hiện có, đang ngày càng trở nên phổ biến. Lasso, một kỹ thuật được thảo luận trong các bài viết trước, có thể được dùng để ước lượng các hệ số quan tâm trong mô hình chiều cao. Bài viết này sẽ đi sâu vào các lệnh trong Stata 16 giúp ước lượng các hệ số này một cách đáng tin cậy. Để minh họa vấn đề, chúng ta sẽ xem xét một ví dụ từ dữ liệu mà Sunyer cùng cộng sự (2017) đã sử dụng để ước lượng ảnh hưởng của ô nhiễm không khí lên thời gian phản ứng của học sinh tiểu học. Mô hình tổng quát có thể được biểu diễn như sau: biến thời gian phản ứng htime của cá nhân i được giải thích bởi mức độ ô nhiễm no2_class của trường học cá nhân i nhân với hệ số gamma, cộng với tích của véctơ biến kiểm soát x_i và véctơ hệ số beta, cùng với thành phần sai số epsilon_i. Cụ thể, htime là thước đo thời gian phản ứng của trẻ i trong một bài kiểm tra, no2_class đo mức độ ô nhiễm trong trường học của trẻ i, và véctơ x_i chứa các biến kiểm soát cần được đưa vào mô hình. Vấn đề đặt ra là có tới 252 biến kiểm soát tiềm năng trong x, nhưng chúng ta chỉ có 1.084 quan sát. Phương pháp thông thường là hồi quy htime theo no2_class và tất cả 252 biến kiểm soát trong x sẽ không tạo ra các ước lượng đáng tin cậy cho hệ số gamma. Nhìn kỹ hơn vào vấn đề, chúng ta thấy nhiều biến kiểm soát là các thành phần bậc hai. Chúng ta nghĩ rằng cần đưa một số trong các thành phần này vào, nhưng không quá nhiều, cùng với no2_class để có được một xấp xỉ tốt cho quá trình tạo ra dữ liệu.
cover
Bảng biểu tùy chỉnh trong stata 17: sức mạnh từ lệnh table mới
Tháng 04/2026
Trong phiên bản Stata 17, hệ thống tạo bảng biểu đã được nâng cấp toàn diện, mang lại khả năng tùy biến mạnh mẽ và linh hoạt. Không chỉ dừng lại ở việc mở rộng chức năng của lệnh table, Stata còn giới thiệu một hệ thống hoàn toàn mới cho phép thu thập kết quả từ bất kỳ lệnh nào, thiết kế bố cục theo ý muốn và xuất bản trực tiếp sang các định dạng tài liệu phổ biến. Bài viết này sẽ hướng dẫn bạn những bước đầu tiên để làm quen với lệnh table cải tiến. Những Ví Dụ Điển Hình Về Bảng Biểu Tùy Chỉnh Trước khi đi sâu vào cú pháp, hãy cùng điểm qua một số mẫu bảng biểu mà bạn có thể dễ dàng tạo ra bằng hệ thống mới này.
cover
Ước lượng marginal likelihood qua trung bình điều hòa có chặn và vùng hpd có thể tích xác định
Tháng 04/2026
Việc tính toán marginal likelihood đóng vai trò then chốt trong việc so sánh và lựa chọn mô hình Bayes. Tuy nhiên, đây luôn là một thách thức lớn về mặt tính toán do yêu cầu tích phân trên không gian tham số nhiều chiều. Phương pháp trung bình điều hòa truyền thống dù đơn giản nhưng thường gặp phải vấn đề phương sai vô hạn, khiến kết quả không ổn định. Để giải quyết bài toán này, các nhà nghiên cứu đã phát triển những hướng đi mới dựa trên việc giới hạn không gian lấy mẫu trong các vùng mật độ cao nhằm đảm bảo tính hội tụ của các ước lượng bằng chứng thực nghiệm. SỰ TIẾN HÓA CỦA CÁC PHƯƠNG PHÁP DỰA TRÊN TRUNG BÌNH ĐIỀU HÒA Nền tảng của các nghiên cứu hiện đại bắt nguồn từ đồng nhất thức của Alan Gelfand và Dipak Dey vào năm 1994. Ý tưởng cốt lõi là sử dụng một hàm tự do để điều chỉnh trọng số của các mẫu từ phân phối hậu nghiệm. Khi hàm này được chọn là phân phối đều trên một vùng mật độ hậu nghiệm cao nhất, được gọi là vùng HPD, ước lượng thu được sẽ đảm bảo tính có chặn và do đó có phương sai hữu hạn. Đây là bước ngoặt giúp loại bỏ sự bất ổn định vốn có của phương pháp trung bình điều hòa nguyên bản. Từ phương pháp thames đến những cải tiến cần thiết
cover
Khoảng dự báo với mô hình gradient boosting machine trong stata
Tháng 04/2026
Các phương pháp học máy, điển hình là các cây quyết định kết hợp, đang được sử dụng rộng rãi để dự báo kết quả dựa trên dữ liệu. Tuy nhiên, các phương pháp này thường tập trung vào việc đưa ra các dự báo điểm, điều này làm hạn chế khả năng định lượng độ không chắc chắn của dự báo. Trong nhiều lĩnh vực như y tế và tài chính, mục tiêu không chỉ là dự báo chính xác mà còn là đánh giá độ tin cậy của các dự báo đó. Khoảng dự báo, cung cấp các ngưỡng trên và ngưỡng dưới sao cho giá trị thực tế nằm trong đó với xác suất cao, là một công cụ đáng tin cậy để định lượng độ chính xác của dự báo. Một khoảng dự báo lý tưởng cần đáp ứng các tiêu chí: cung cấp độ bao phủ hợp lệ mà không phụ thuộc vào các giả định phân phối mạnh, có tính cung cấp thông tin bằng cách càng hẹp càng tốt cho mỗi quan sát, và có tính thích ứng, tức là cung cấp khoảng rộng hơn cho các quan sát khó dự báo và hẹp hơn cho các quan sát dễ dự báo. Bài viết này sẽ hướng dẫn cách sử dụng bộ lệnh h2oml trong Stata để xây dựng các khoảng dự báo bằng cách tiếp cận hồi quy phân vị phù hợp. Khái niệm về dự báo phù hợp Dự báo phù hợp là một phương pháp tổng quát được thiết kế để bổ trợ cho bất kỳ dự báo học máy nào bằng cách cung cấp các khoảng dự báo có đảm bảo về độ bao phủ thống kê mà không cần giả định phân phối. Về mặt lý thuyết, dự báo phù hợp bắt đầu với một mô hình học máy đã được huấn luyện trước trên dữ liệu độc lập và được phân phối định danh. Sau đó, nó sử dụng dữ liệu kiểm chứng được giữ lại từ cùng một phân phối tạo dữ liệu, gọi là dữ liệu hiệu chuẩn, để xác định một hàm số điểm S. Hàm số này gán điểm số lớn hơn khi sự khác biệt giữa giá trị dự báo và giá trị phản hồi thực tế lớn hơn. Những điểm số này sau đó được sử dụng để xây dựng khoảng dự báo cho các quan sát mới.
cover
Ước lượng tác động của biến cộng biến sau khi sử dụng phương pháp moment tổng quát
Tháng 04/2026
Trong phân tích thống kê hiện đại, việc xác định các hệ số của mô hình thường chỉ là bước khởi đầu. Điều mà các nhà nghiên cứu thực sự quan tâm là tác động của các biến độc lập lên giá trị kỳ vọng của biến kết quả. Từ phiên bản Stata 14.2, khả năng sử dụng lệnh margins sau khi ước lượng bằng phương pháp moment tổng quát đã mở ra một công cụ mạnh mẽ để phân tích sâu hơn các mô hình phức tạp. Bài viết này sẽ hướng dẫn cách sử dụng margins và marginsplot để ước lượng tác động của các biến cộng biến trong mô hình Probit được thực hiện qua phương pháp GMM. Lệnh margins hoạt động bằng cách tính toán các số liệu thống kê từ dự báo của một mô hình đã khớp trước đó tại các giá trị cố định của một số biến cộng biến, sau đó lấy trung bình hoặc tích phân trên các biến còn lại. Phương pháp này cực kỳ hữu ích để ước lượng các tham số trung bình của quần thể như trung bình biên, tác động điều trị trung bình hoặc tác động trung bình của một biến lên trung bình có điều kiện. Mô hình Probit và phương pháp moment tổng quát Đối với một kết quả nhị phân y và các biến dự báo x, mô hình Probit giả định rằng biến y bằng một khi tổng tích của x với hệ số beta cộng với sai số lớn hơn không, trong đó sai số tuân theo phân phối chuẩn hóa. Hàm trung bình có điều kiện của y khi biết x chính là hàm phân phối tích lũy chuẩn hóa của tích x và beta.
cover
Cách tạo lệnh chạy chatgpt trong phần mềm stata
Tháng 04/2026
Trí tuệ nhân tạo đang trở thành một chủ đề thu hút sự chú ý lớn và ChatGPT hiện là công cụ phổ biến nhất trong lĩnh vực này. Việc kết hợp khả năng phân tích thống kê chuyên sâu của Stata với sự linh hoạt của trí tuệ nhân tạo có thể giúp quy trình làm việc của nhà nghiên cứu trở nên hiệu quả hơn. Bài viết này sẽ hướng dẫn bạn cách xây dựng một lệnh tùy chỉnh trong Stata để gọi trực tiếp ChatGPT thông qua việc tích hợp môi trường Python. Tích hợp Stata và Python Để bắt đầu, chúng ta cần tận dụng khả năng chạy mã Python ngay bên trong Stata. Nếu bạn chưa quen với việc sử dụng kết hợp hai ngôn ngữ này, hãy đảm bảo rằng Stata đã được thiết lập để nhận diện phiên bản Python trên máy tính của bạn. Việc tích hợp này cho phép chúng ta sử dụng các thư viện mạnh mẽ của Python để xử lý các tác vụ mà Stata thuần túy chưa hỗ trợ, ví dụ như giao tiếp với giao diện lập trình ứng dụng. Sử dụng Python để tương tác với ChatGPT
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội