messenger_logo
Liên hệ qua Messenger
SciEco
Bài viết.
Bài viết từ trang scienceforeconomics.com
cover
Dữ liệu hiện diện ở khắp mọi nơi. Các cơ quan chính phủ, tổ chức tài chính, trường đại học và nền tảng mạng xã hội thường cung cấp quyền truy cập dữ liệu của họ thông qua API. Hệ thống này đóng vai trò như một cầu nối, thường trả về khối dữ liệu được yêu cầu dưới định dạng tệp JSON. Việc nắm vững cách sử dụng Python để gửi các truy vấn API và xử lý dữ liệu JSON thu được ngay bên trong môi trường Stata là một kỹ năng cực kỳ hữu ích cho quá trình phân tích dữ liệu hiện đại. Khái quát về cấu trúc API và định dạng JSON API là một phần mềm trung gian cho phép hệ thống của bạn yêu cầu dữ liệu từ một hệ thống máy tính khác. Cú pháp truy vấn thường mang tính đặc thù tùy thuộc vào từng hệ thống cung cấp, nhưng một cấu trúc điển hình luôn bắt đầu bằng một URL theo sau là các tùy chọn tham số. Bài viết này sẽ lấy ví dụ về việc sử dụng hệ thống openFDA để truy xuất dữ liệu về các biến cố bất lợi của thuốc từ Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ. Chúng ta hoàn toàn có thể thêm các điều kiện lọc vào lời gọi API để thu hẹp phạm vi dữ liệu trả về. Dữ liệu này hiển thị dưới dạng JSON, một định dạng lưu trữ phổ biến được cấu trúc bởi tập hợp các cặp khóa và giá trị. Khóa hoạt động tương tự như một biến số trong tập dữ liệu Stata, còn giá trị chính là dữ liệu thực tế được ghi nhận.
cover
Trong bài phân tích trước, chúng ta đã làm quen với mô hình tuyến tính tổng quát thông qua một tập dữ liệu khá đặc biệt: số ca tử vong do ngựa đá trong quân đội Phổ. Tập dữ liệu này đếm số lượng tử vong của các quân đoàn qua từng năm. Vì đây là dữ liệu đếm, chúng ta đã điều chỉnh mô hình tuyến tính để sử dụng phân phối Poisson, đồng thời áp dụng hàm liên kết log. Tuy nhiên, có một khía cạnh mà chúng ta chưa xem xét: liệu tất cả các quân đoàn có tỷ lệ tử vong giống hệt nhau không? Khám phá dữ liệu theo từng nhóm Trước tiên, chúng ta cần thiết lập môi trường trong R.
cover
Trong các phân tích dữ liệu không gian, việc theo dõi sự thay đổi qua thời gian và địa điểm là một kỹ năng quan trọng. Sau khi đã nắm vững cách tải dữ liệu từ kho lưu trữ GitHub, vẽ đồ thị chuỗi thời gian và tạo bản đồ choropleth tĩnh, bước tiếp theo là đưa dữ liệu vào không gian chuyển động. Bài viết này sẽ hướng dẫn bạn cách tạo một bản đồ choropleth động để khám phá sự phân bố của dịch bệnh qua từng ngày. Cách tạo bản đồ cho từng ngày Để bắt đầu, chúng ta cần làm sạch và mô tả dữ liệu thô. Dữ liệu này chứa số lượng ca nhiễm tích lũy cho từng quận tại Mỹ bắt đầu từ cuối tháng 1 năm 2020. Các biến số lưu trữ dữ liệu theo ngày được đặt tên theo định dạng từ v12 đến v86. Quá trình chuẩn bị dữ liệu đòi hỏi chúng ta phải hợp nhất dữ liệu địa lý, dữ liệu ca bệnh và dữ liệu dân số. Chúng ta sử dụng dấu hoa thị như một wildcard trong lệnh gọi biến để giữ lại toàn bộ các cột ngày tháng.
cover
Mô phỏng dược động học và dược lực học luôn là một lĩnh vực đầy thách thức đối với những người làm khoa học dữ liệu trong mảng y sinh. Thay vì chỉ đọc các tài liệu nghiên cứu với những con số mô hình hóa phức tạp, việc trực tiếp viết mã lệnh để thực hiện phân tích Monte Carlo mang lại một góc nhìn trực quan và sâu sắc hơn rất nhiều. Quá trình tính toán xác suất đạt mục tiêu của các nồng độ ức chế tối thiểu khác nhau không chỉ giúp củng cố lý thuyết mà còn mở ra những câu hỏi thú vị về cách thuốc phân bố trong cơ thể. Bài viết này sẽ trình bày cách xây dựng một mô hình cơ bản với gói mrgsolve trong R để mô phỏng nồng độ thuốc ceftriaxone, đồng thời đánh giá tác động của các biến số lâm sàng như độ thanh thải creatinine và tình trạng giảm albumin máu. Dược động học quần thể và các tham số quan trọng Dược động học quần thể là một phương pháp thống kê mô tả cách các loại thuốc hoạt động trong cơ thể qua các nhóm người khác nhau, có tính đến sự biến thiên giữa các cá thể. Thay vì nghiên cứu sâu một người, phương pháp này phân tích dữ liệu thưa thớt từ nhiều bệnh nhân để hiểu hành vi dùng thuốc điển hình và lý do tại sao mọi người lại khác nhau về mức độ phơi nhiễm thuốc. Khi phân tích một nghiên cứu dược động học quần thể, việc xác định đúng các tham số là bước nền tảng. Dựa trên mô hình đánh giá ceftriaxone ở bệnh nhân nhiễm trùng huyết nặng, chúng ta có thể tập trung vào các thông số sau:
cover
Tạo dữ liệu tổng hợp với r-vine copulas thông qua esgtoolkit trong r
Tháng 03/2026
R-vine copulas là một công cụ phân tích mạnh mẽ giúp mô hình hóa sự phụ thuộc phức tạp giữa nhiều biến số trong một tập dữ liệu. Việc tạo ra dữ liệu tổng hợp nhằm phục vụ cho kiểm thử mô hình hoặc chia sẻ thông tin mà không làm lộ dữ liệu nhạy cảm đang trở thành một nhu cầu thiết yếu. Gói esgtoolkit trong R cung cấp một giao diện trực quan và tối ưu để huấn luyện các mô hình R-vine copula, đồng thời mô phỏng sinh ra dữ liệu mới bảo toàn chặt chẽ các đặc tính thống kê của dữ liệu gốc. Chuẩn bị môi trường và dữ liệu đầu vào Để bắt đầu, chúng ta cần cài đặt gói esgtoolkit từ kho lưu trữ. Trong bài viết này, tập dữ liệu chuỗi thời gian EuStockMarkets bao gồm các chỉ số chứng khoán châu Âu như DAX, SMI, CAC và FTSE sẽ được sử dụng làm minh họa. Dữ liệu này được chuyển đổi sang dạng tỷ suất sinh lợi logarit thông qua hàm có sẵn của gói.
cover
Phân tích độ bất định: so sánh lợi nhuận giữa vàng và bitcoin
Tháng 03/2026
Gần đây, viện nghiên cứu Deutsche Bank đã công bố một báo cáo đáng chú ý, nhận định rằng Bitcoin đang trải qua một quá trình tương tự như những gì vàng đã trải qua trong suốt một trăm năm qua. Theo báo cáo này, sự chấp nhận ngày càng tăng cùng với việc giảm thiểu biến động có thể biến Bitcoin thành một tài sản dự trữ mà các ngân hàng trung ương có thể cân nhắc nắm giữ vào năm 2030. Sự hội tụ trong phân phối lợi nhuận Để kiểm chứng nhận định từ Deutsche Bank, chúng ta cần xem xét dữ liệu thực tế về phân phối lợi nhuận hàng tháng của hai loại tài sản này. Sự thay đổi trong mức độ biến động của chuỗi thời gian sẽ phản ánh mức độ trưởng thành của tài sản. Biểu đồ phân tích độ bất định dưới đây xác nhận trực quan cho nhận định trên. Đặc biệt trong hai năm trở lại đây, vàng và Bitcoin đã có sự hội tụ đáng kể về mặt phân phối lợi nhuận, cho thấy tính chất dao động của Bitcoin đang dần ổn định hơn so với những năm trước.
cover
Chuẩn hóa dữ liệu trong r: khi nào, vì sao và cách thực hiện đúng
Tháng 03/2026
Chuẩn hóa dữ liệu thường được xem là một bước tiền xử lý nhỏ lẻ, một thao tác kỹ thuật áp dụng nhanh cho xong trước khi bắt tay vào xây dựng mô hình. Tuy nhiên, trên thực tế, chuẩn hóa không chỉ là một chi tiết kỹ thuật mà là một quyết định mô hình hóa mang tính chiến lược. Khi cùng một tập dữ liệu được xử lý bằng các phương pháp khác nhau, hành vi của mô hình sẽ thay đổi đáng kể. Khoảng cách, độ tương đồng, các thành phần phạt và đường dẫn tối ưu hóa đều bị ảnh hưởng trực tiếp. Quan trọng hơn, chuẩn hóa không phải lúc nào cũng mang lại lợi ích. Nếu áp dụng sai ngữ cảnh, nó có thể làm giảm hiệu suất của mô hình hoặc tệ hơn là gây ra hiện tượng rò rỉ dữ liệu, làm ô nhiễm toàn bộ quá trình đánh giá. Một ví dụ điển hình là việc tính toán các tham số chuẩn hóa như giá trị trung bình hay độ lệch chuẩn trên toàn bộ tập dữ liệu trước khi chia thành tập huấn luyện và tập kiểm tra. Quá trình này vô tình mang thông tin của tập kiểm tra trộn lẫn vào quá trình huấn luyện, tạo ra những kết quả đánh giá ảo tưởng. Vấn đề cốt lõi không nằm ở bản thân phương pháp, mà ở việc bạn áp dụng nó khi nào và như thế nào. Bài viết này sẽ coi chuẩn hóa là một phần không thể tách rời của chiến lược mô hình hóa. Chúng ta sẽ cùng nhau giải quyết từng bước các vấn đề nền tảng: tại sao cần chuẩn hóa, khi nào nên áp dụng, thời điểm thực hiện trước hay sau khi chia tập dữ liệu và cách xử lý với từng loại biến số khác nhau. Phân biệt thuật ngữ chuẩn hóa và tiêu chuẩn hóa
cover
Tùy chỉnh bảng trong stata 17: cách lưu và sử dụng phong cách trình bày dữ liệu
Tháng 03/2026
Trong quá trình phân tích dữ liệu, chúng ta thường phải tạo ra rất nhiều bảng kết quả hồi quy với cùng một định dạng và nhãn dán lặp đi lặp lại. Thay vì phải định dạng lại từ đầu cho mỗi bảng báo cáo, Stata cung cấp một giải pháp hiệu quả giúp bạn lưu lại toàn bộ cấu trúc trình bày để tái sử dụng về sau. Bài viết này sẽ hướng dẫn cách lưu các thiết lập định dạng bảng và áp dụng chúng cho những dự án phân tích dữ liệu trong tương lai. Tạo bảng kết quả cơ bản Chúng ta sẽ bắt đầu bằng việc mở tập dữ liệu thông qua lệnh webuse nhanes2l. Sau đó, chúng ta dùng lệnh table để tạo một bảng cơ bản cho mô hình hồi quy logistic với biến phụ thuộc nhị phân là highbp. Bảng này sẽ bao gồm tỷ số chênh, sai số chuẩn, thống kê z, p-value và khoảng tin cậy. Lưu ý rằng ký hiệu biến phân loại của Stata được sử dụng để đưa vào hiệu ứng chính của biến liên tục age, hiệu ứng chính của các biến phân loại sex và diabetes, cùng với sự tương tác giữa age và sex.
cover
Tích hợp stata và python: ứng dụng máy học với support vector machines
Tháng 03/2026
Machine learning, deep learning và trí tuệ nhân tạo là tập hợp các thuật toán dùng để nhận diện các mẫu trong dữ liệu. Các thuật toán này thường có tên gọi khá đặc biệt như random forests, neural networks hay spectral clustering. Bài viết này trình bày cách sử dụng một trong những thuật toán phổ biến mang tên Support Vector Machines hay còn được gọi tắt là SVM. Mục tiêu là ứng dụng mô hình SVM để phân biệt những người có khả năng mắc bệnh tiểu đường và những người không mắc bệnh thông qua hai biến số là tuổi và mức HbA1c. Tuổi được tính bằng năm, còn HbA1c là chỉ số xét nghiệm máu đo lường mức độ kiểm soát đường huyết. Mô hình SVM sẽ dự đoán rằng những người lớn tuổi với mức HbA1c cao có nguy cơ mắc bệnh tiểu đường cao hơn, trong khi những người trẻ tuổi với mức HbA1c thấp ít có nguy cơ mắc bệnh hơn. Tải, gộp và làm sạch dữ liệu bằng Stata Dữ liệu được sử dụng lấy từ Khảo sát Kiểm tra Sức khỏe và Dinh dưỡng Quốc gia Hoa Kỳ. Cụ thể, biến số tuổi trích xuất từ tập dữ liệu nhân khẩu học, chỉ số HbA1c từ dữ liệu hemoglobin và trạng thái bệnh từ dữ liệu tiểu đường. Quá trình bắt đầu bằng việc tải các tệp gốc từ trang web, lưu thành các tập dữ liệu Stata cục bộ và tiến hành gộp chúng lại với nhau. Sau khi gộp, các biến số sẽ được đổi tên và mã hóa lại cho đồng nhất. Những quan sát có giá trị bị khuyết sẽ được loại bỏ hoàn toàn để đảm bảo chất lượng cho bước huấn luyện mô hình.
cover
Khám phá xác suất đạt mục tiêu của piperacillin/tazobactam trong điều trị pseudomonas
Tháng 03/2026
Chúng ta đã làm quen với các khái niệm cơ bản về dược động học và dược lực học. Hôm nay, chúng ta sẽ ứng dụng những kiến thức đó vào bộ đôi kháng sinh piperacillin/tazobactam và vi khuẩn Pseudomonas. Gần đây, một tuyên bố của FDA vào tháng hai năm 2024 đã chỉ ra rằng đối với điểm gãy phụ thuộc liều nhạy cảm là 16 mcg/mL, chúng ta nên sử dụng liều 4.5g mỗi sáu giờ truyền kéo dài trong ba giờ. Lý do là vì phác đồ chuẩn 4.5g truyền tĩnh mạch mỗi sáu giờ trong vòng nửa giờ không đủ để đạt PTA lớn hơn 90 phần trăm. Tuyên bố này cũng đề cập đến một hạn chế khi sử dụng chỉ số thời gian nồng độ thuốc tự do lớn hơn mic đạt 50 phần trăm để tính toán PTA, một chỉ số chưa được kiểm chứng đầy đủ cho Pseudomonas. Đây là cơ hội tuyệt vời để chúng ta tự mình kiểm chứng điều này thông qua dữ liệu. Xây dựng mô hình dược động học quần thể Đầu tiên, chúng ta cần thu thập các thông số popPK, xây dựng mô hình, thực hiện mô phỏng và trực quan hóa PTA. Chúng ta sẽ dựa trên một phân tích gộp về dược động học cho piperacillin/tazobactam trên nhiều nhóm bệnh nhân khác nhau, từ trẻ sinh non đến người cao tuổi. Mô hình gộp này phức tạp và tinh vi hơn rất nhiều so với các mô hình đơn lẻ. Dưới đây là đoạn mã khởi tạo mô hình cơ bản sử dụng ngôn ngữ R và gói mrgsolve.
cover
Mô hình nhiều phương trình: ước lượng và tác động cận biên bằng gmm
Tháng 03/2026
Chúng ta sẽ cùng tìm hiểu cách ước lượng tác động can thiệp trung bình cho mô hình trung bình mũ với một biến can thiệp nội sinh. Đây là một bài toán ước lượng hai bước, trong đó bước thứ nhất tương ứng với mô hình can thiệp và bước thứ hai là mô hình kết quả. Khác với các mô hình có hàm hợp lý tách rời, do biến can thiệp mang tính nội sinh, hàm hợp lý của mô hình này không thể tách rời. Chúng ta sẽ sử dụng phương pháp mô men tổng quát thông qua lệnh gmm để giải quyết bài toán này và thu được sai số chuẩn cùng các tác động cận biên chính xác nhất. Mô hình khung kết quả tiềm năng Bắt đầu với khung kết quả tiềm năng để xác định tác động can thiệp trung bình. Đối với mỗi mức độ can thiệp, sẽ có một kết quả mà chúng ta quan sát được nếu một đối tượng nhận mức can thiệp đó. Khi có một kết quả tuân theo phân phối trung bình mũ và có hai mức độ can thiệp, chúng ta có thể chỉ định cách các giá trị trung bình của kết quả tiềm năng được tạo ra từ các biến độc lập và phần dư. Các tham số bao gồm các hệ số chặn không đổi và hệ số hồi quy của biến độc lập. Cần lưu ý rằng phân phối của kết quả tiềm năng có thể là Poisson, lognormal hoặc một phân phối bất kỳ khác có trung bình mũ. Biến can thiệp được quan sát dưới hai trạng thái: được can thiệp hoặc không được can thiệp. Sai số của kết quả tiềm năng có tương quan với việc chỉ định can thiệp. Việc can thiệp được xác định bởi các biến độc lập trong một hồi quy probit, với sai số tuân theo phân phối chuẩn tắc. Chúng ta coi biến can thiệp là nội sinh bằng cách cho phép sai số của kết quả tiềm năng tương quan với sai số của mô hình can thiệp. Giả định rằng phương sai của các sai số không quan sát được là như nhau cho cả nhóm đối chứng và nhóm can thiệp, đồng thời mức độ tương quan của chúng với sai số can thiệp cũng bằng nhau.
cover
Cào dữ liệu bóng bầu dục mỹ vào stata bằng lệnh nfl2stata
Tháng 03/2026
Mùa giải bóng bầu dục đang đến gần và sự cạnh tranh trong các giải đấu giả lập luôn cực kỳ khốc liệt. Để tìm kiếm lợi thế cạnh tranh, việc thu thập và phân tích dữ liệu là yếu tố mang tính quyết định. Để giải quyết bài toán này, lệnh nfl2stata đã được phát triển nhằm mục đích cào dữ liệu trực tiếp từ trang web chính thức của NFL vào môi trường Stata. Cần lưu ý rằng do những thay đổi liên tục về cấu trúc trang web từ phía NFL, lệnh này hiện tại có thể không còn hoạt động trơn tru như ban đầu, nhưng tư duy tiếp cận và cách thức xử lý dữ liệu kỹ thuật số vẫn mang lại rất nhiều giá trị thực tiễn. Cài đặt và sử dụng cơ bản Để bắt đầu làm việc với bộ dữ liệu này, bước đầu tiên là cài đặt công cụ vào hệ thống máy tính. Bạn có thể thực hiện việc này bằng cách chạy đoạn mã sau.
cover
Kết hợp stata và python: học máy với mô hình support vector machine
Tháng 03/2026
Học máy, học sâu và trí tuệ nhân tạo là một tập hợp các thuật toán được sử dụng để nhận diện các quy luật trong dữ liệu. Các thuật toán này thường có những cái tên khá độc đáo như rừng ngẫu nhiên, mạng nơ-ron hay phân cụm phổ. Trong bài viết này, chúng ta sẽ cùng tìm hiểu cách sử dụng một trong những thuật toán phổ biến nhất có tên là support vector machine. Mục tiêu của chúng ta là giới thiệu ngắn gọn và hướng dẫn cách triển khai mô hình này bằng Python ngay bên trong môi trường Stata. Bài toán thực tế được đặt ra là sử dụng support vector machine để phân biệt giữa những người có khả năng mắc bệnh tiểu đường và những người không mắc bệnh. Chúng ta sẽ dựa vào hai biến số là tuổi tác và chỉ số HbA1c. Tuổi được tính bằng năm, còn HbA1c là một xét nghiệm máu giúp đo lường mức độ kiểm soát đường huyết. Mô hình sẽ dự đoán rằng những người lớn tuổi với mức HbA1c cao có nhiều nguy cơ mắc tiểu đường hơn, trong khi những người trẻ tuổi với mức HbA1c thấp thường ít có nguy cơ hơn. Tải, gộp và làm sạch dữ liệu Chúng ta sẽ sử dụng bộ dữ liệu từ Cuộc khảo sát Kiểm tra Sức khỏe và Dinh dưỡng Quốc gia Hoa Kỳ. Cụ thể, các biến số được quan tâm bao gồm biến tuổi từ bộ dữ liệu nhân khẩu học, biến HbA1c từ bộ dữ liệu hemoglobin glycosyl hóa và biến tiểu đường từ bộ dữ liệu bệnh lý.
cover
Mô hình hỗn hợp đa cấp phi tuyến: hướng dẫn ứng dụng lệnh menl trong stata
Tháng 03/2026
Giả sử bạn đang làm việc với một mô hình có các tham số mang tính phi tuyến. Đó có thể là mô hình tăng trưởng của một cái cây với mức tiệm cận đạt giá trị tối đa, hoặc mô hình nồng độ huyết thanh của một loại thuốc tăng nhanh đến mức đỉnh rồi giảm dần theo hàm mũ. Thông thường, bạn sẽ dùng hồi quy phi tuyến để khớp mô hình này. Nhưng vấn đề đặt ra là: điều gì sẽ xảy ra nếu bạn có các phép đo lặp lại cho cùng một cái cây hoặc các mức huyết thanh được đo nhiều lần trên cùng một bệnh nhân? Bạn sẽ cần tính toán đến sự tương quan dữ liệu bên trong cùng một cá thể. Thậm chí, bạn có thể cho rằng mỗi cái cây có một mức tăng trưởng tiệm cận của riêng nó. Đây chính là lúc bạn cần đến các mô hình hỗn hợp phi tuyến, hay còn gọi là mô hình phân cấp phi tuyến hoặc mô hình đa cấp phi tuyến. Giới thiệu về mô hình hỗn hợp phi tuyến Lệnh menl được giới thiệu trong Stata giúp chúng ta khớp các mô hình hỗn hợp phi tuyến một cách dễ dàng. Các mô hình phi tuyến cổ điển thường giả định rằng mỗi cá thể chỉ có một quan sát và các cá thể hoàn toàn độc lập với nhau. Bạn có thể xem mô hình hỗn hợp phi tuyến là một sự mở rộng của mô hình phi tuyến cho trường hợp nhiều phép đo được thực hiện trên cùng một cá thể và các quan sát trong cùng một cá thể này thường có tính tương quan. Bạn cũng có thể coi đây là dạng tổng quát hóa của mô hình hỗn hợp tuyến tính, trong đó một số hoặc tất cả các tác động ngẫu nhiên được đưa vào mô hình theo cách phi tuyến. Dù tiếp cận theo cách nào, các mô hình này đều được sử dụng để mô tả một biến phản hồi dưới dạng một hàm phi tuyến của các hiệp biến, đồng thời kiểm soát sự tương quan giữa các quan sát trên cùng một cá thể.
cover
Tích hợp stata và python phần 9: sử dụng sfi để chuyển dữ liệu từ python sang stata
Tháng 03/2026
Trong các bài viết trước thuộc chuỗi hướng dẫn tích hợp Stata và Python, chúng ta đã tìm hiểu cách sử dụng module Stata Function Interface để xuất dữ liệu từ Stata sang Python. Bài viết hôm nay sẽ giải quyết bài toán ngược lại, đó là làm thế nào để chuyển dữ liệu trực tiếp từ môi trường Python vào Stata một cách hiệu quả. Để minh họa, chúng ta sẽ sử dụng thư viện yfinance của Python để tải dữ liệu lịch sử của chỉ số Dow Jones, sau đó chuyển toàn bộ dữ liệu này sang Stata để xử lý và vẽ đồ thị. Sử dụng thư viện yfinance để tải dữ liệu tài chính Bước đầu tiên là gọi thư viện yfinance trong môi trường Python. Chúng ta sẽ dùng phương thức download để lấy dữ liệu cho chỉ số Dow Jones từ trang Yahoo Finance. Phương thức này cần ba thông số cơ bản, bao gồm mã chứng khoán, ngày bắt đầu và ngày kết thúc. Kết quả trả về sẽ là một data frame của pandas chứa hơn hai nghìn dòng dữ liệu và sáu cột, được đánh chỉ mục theo ngày tháng.
cover
Giải thích tính nhất quán và tính chuẩn tiệm cận thông qua mô phỏng
Tháng 03/2026
Trong cách tiếp cận tần suất học đối với thống kê, các bộ ước lượng là những biến ngẫu nhiên vì chúng là các hàm số của dữ liệu ngẫu nhiên. Phân phối mẫu hữu hạn của hầu hết các bộ ước lượng được sử dụng trong công việc ứng dụng thường không được biết trước, bởi lẽ chúng là những hàm phi tuyến tính phức tạp của dữ liệu ngẫu nhiên. Thay vào đó, chúng ta thường sử dụng các thuộc tính hội tụ trong mẫu lớn của các bộ ước lượng này để xấp xỉ hành vi của chúng trong các mẫu hữu hạn. Hai thuộc tính hội tụ quan trọng nhất là tính nhất quán và tính chuẩn tiệm cận. Một bộ ước lượng nhất quán sẽ tiến gần một cách tùy ý đến giá trị thực về mặt xác suất. Trong khi đó, phân phối của một bộ ước lượng chuẩn tiệm cận sẽ ngày càng giống với phân phối chuẩn khi cỡ mẫu tăng lên. Chúng ta sử dụng một phiên bản đã được định tâm và thu phóng lại của phân phối chuẩn này để xấp xỉ phân phối mẫu hữu hạn của các bộ ước lượng. Bài viết này sẽ minh họa ý nghĩa của tính nhất quán và tính chuẩn tiệm cận thông qua phương pháp mô phỏng Monte Carlo bằng phần mềm Stata. Tính nhất quán của bộ ước lượng
cover
Hướng dẫn ước lượng và đánh giá mô hình vector tự hồi quy với stata
Tháng 03/2026
Trong mô hình tự hồi quy một biến, một chuỗi thời gian dừng thường được mô hình hóa bằng cách phụ thuộc vào các giá trị trễ của chính nó. Khi phân tích nhiều chuỗi thời gian cùng lúc, bước phát triển tự nhiên tiếp theo là sử dụng mô hình vector tự hồi quy, hay còn gọi là mô hình VAR. Trong cấu trúc này, một hệ thống các biến số được giải thích bởi độ trễ của chính chúng và độ trễ của tất cả các biến số khác tồn tại trong hệ thống. Các nhà kinh tế vĩ mô ứng dụng thường sử dụng dạng mô hình này để mô tả dữ liệu thực tế, thực hiện suy luận nhân quả và đưa ra các tư vấn chính sách nền tảng. Bài viết này sẽ minh họa cách ước lượng mô hình VAR ba biến số bao gồm tỷ lệ thất nghiệp, tỷ lệ lạm phát và lãi suất danh nghĩa tại Mỹ. Đây là bộ khung cơ bản được ứng dụng rộng rãi trong các phân tích về chính sách tiền tệ. Dữ liệu và phương pháp lựa chọn độ trễ Khi xây dựng một mô hình VAR, người nghiên cứu cần đưa ra hai quyết định cốt lõi. Thứ nhất, quyết định những biến số nào sẽ được đưa vào mô hình dựa trên câu hỏi nghiên cứu và nền tảng lý thuyết. Thứ hai, lựa chọn độ trễ sao cho phù hợp nhất. Bạn có thể dùng quy tắc kinh nghiệm như bao gồm toàn bộ dữ liệu của một năm, hoặc sử dụng các tiêu chuẩn lựa chọn độ trễ mang tính định lượng chính xác hơn.
cover
[BLOG 010] Thực hiện thuật toán phân cụm K-means (K-means Clustering) với R
Tháng 11/2024
1. Giới thiệu Phân cụm đồ thị (K-means Clustering) là quá trình phân chia hoặc tách biệt dữ liệu theo các nhóm dựa trên các đặc điểm chung sau đó được biểu thị qua một đồ thị. Phù hợp với những công việc cần phân khúc các tệp khách hàng trong thương mại, phân tích thị trường. Điều này giúp các công ty hiểu rõ hơn về sở thích và nhu cầu của từng nhóm, qua đó đưa ra chiến lược marketing phù hợp. Trong thuật toán phân cụm, K-means là một thuật toán phân cụm đơn giản và phổ biến trong học máy (machine learning) để phân cụm các điểm dữ liệu thành các nhóm riêng biệt dựa trên các đặc điểm của chúng. Thuật toán này dùng để chia dữ liệu thành các nhóm dựa trên khoảng cách giữa các điểm dữ liệu với nhau. 2. Ta cài đặt những thư viện sau
cover
[KHÓA HỌC STATA] Ứng dụng Phân tích định lượng trong Kinh tế và Tài chính
Tháng 10/2024
Trong thời đại của số hóa và khoa học dữ liệu lên ngôi, khả năng phân tích, giải mã và trích xuất thông tin hữu ích từ khối lượng dữ liệu khổng lồ là một kỹ năng không thể thiếu để giúp bạn thích nghi với yêu cầu của công việc! Đặc biệt, với việc làm chủ STATA, phần mềm phân tích dữ liệu có giao diện thân thiện và khả năng xử lý dữ liệu mạnh mẽ sẽ là công cụ đắc lực cho bạn. Để có thể giúp bạn chinh phục STATA, SciEco ở đây để mang đến cho bạn khóa học STATA đầy hấp dẫn: Nội dung khóa học chi tiết: Bài 1: Giới thiệu về STATA và VES
cover
🌍 ĐĂNG KÝ THAM GIA HỘI THẢO KHOA HỌC - KHOA KINH TẾ HỌC - NEU 🌍
Tháng 09/2024
📊 Trong bối cảnh kinh tế toàn cầu ngày càng phức tạp và các thị trường tài chính trở nên liên kết chặt chẽ, việc hiểu rõ các yếu tố ảnh hưởng đến tỷ giá hối đoái ngày càng trở nên quan trọng đối với các quốc gia, đặc biệt là những nước có nền kinh tế mở và phụ thuộc nhiều vào dòng vốn quốc tế. Đối với nhóm các quốc gia thu nhập trung bình thuộc ASEAN-5, mối quan hệ giữa chênh lệch lãi suất và lợi nhuận tỷ giá hối đoái không chỉ là vấn đề lý thuyết mà còn có ý nghĩa thực tiễn sâu sắc. 📊 Cũng chính từ cơ sở đó, Khoa Kinh tế học của Đại học Kinh tế Quốc dân trân trọng kính mời các nhà nghiên cứu, các thầy cô, sinh viên và những ai quan tâm và hoạt động thực tiễn trong lĩnh vực kinh tế học tới tham dự Hội thảo Khoa học: “Uncovered Interest Rate Parity in ASEAN-5 Middle-Income Countries: New Evidence from ARDL Bounds Testing Approach” để cùng tham gia trao đổi, thảo luận về kết quả nghiên cứu, đồng thời đối thoại cùng diễn giả là PGS.TS. Phạm Thế Anh - Trưởng Khoa Kinh tế học, trường Kinh tế và Quản lý công, Đại học Kinh tế Quốc dân. ✨ Đây cũng là buổi hội thảo đầu tiên của chuỗi hội thảo do Khoa Kinh tế học tổ chức hàng tháng. Để biết thêm thông tin về chủ đề của các buổi hội thảo sắp tới, xin vui lòng truy cập link: docs.google.com
cover
[KHOÁ HỌC R] Phân tích dữ liệu và Lập báo cáo phân tích với ngôn ngữ R (R Programming)
Tháng 09/2024
Khoá học "Lập báo cáo và phân tích dữ liệu với ngôn ngữ R" là một khóa học thực tế và chuyên sâu nhằm giúp bạn nắm vững kỹ năng sử dụng ngôn ngữ lập trình R để thực hiện phân tích dữ liệu và tạo báo cáo chất lượng cao. Trong khoá học này, bạn sẽ được hướng dẫn từ cơ bản đến nâng cao về cách sử dụng R để xử lý và biểu diễn dữ liệu một cách hiệu quả. Bằng cách áp dụng các kỹ thuật thống kê và phân tích dữ liệu trong R, bạn sẽ có khả năng hiểu rõ hơn về các biến thể trong dữ liệu và đưa ra những phân tích chính xác. Không chỉ giúp bạn nắm vững kỹ năng kỹ thuật, khoá học cũng tập trung vào việc tạo ra báo cáo chuyên nghiệp và ấn tượng bằng cách sử dụng RMarkdown và Quarto. Bạn sẽ học cách tùy chỉnh và tối ưu hóa báo cáo để trình bày kết quả phân tích một cách rõ ràng và dễ hiểu. Dù bạn là một sinh viên, nhà nghiên cứu hay chuyên gia trong lĩnh vực dữ liệu, khoá học này sẽ giúp bạn trở thành một người chuyên nghiệp có khả năng sử dụng R để thực hiện phân tích dữ liệu và làm việc với dữ liệu một cách mạnh mẽ và hiệu quả
cover
SciEco tích hợp thành công Advanced Chart của TradingView: Trải Nghiệm Giao Dịch Hiện Đại và Hiệu Quả
Tháng 08/2024
Điều Gì Làm Nên Sự Độc Đáo của Advanced Chart của TradingView? Advanced Chart của TradingView đã nhanh chóng trở thành một trong những công cụ phân tích thị trường phổ biến nhất trên toàn cầu, và lợi ích của công cụ này ngày càng được công nhận. Với việc tích hợp thành công trên nền tảng giao dịch của TVS, nhà đầu tư sẽ được trải nghiệm những ưu điểm nổi bật sau: Giao Diện Người Dùng Thân Thiện: Advanced Chart của TradingView có một giao diện người dùng dễ sử dụng, linh hoạt và tương tác. Các công cụ và chức năng được sắp xếp một cách rõ ràng, giúp người dùng dễ dàng tìm thấy và sử dụng các tính năng một cách hiệu quả trên nền tảng giao dịch của TVS. Biểu Đồ Tương Tác Mạnh Mẽ: Những biểu đồ linh hoạt cho phép nhà đầu tư thay đổi khung thời gian, vẽ đường hỗ trợ và kháng cự, tạo ra các phạm vi Fibonacci và thực hiện nhiều thao tác phân tích kỹ thuật khác. Tính năng này giúp nhà đầu tư dễ dàng xác định xu hướng và các điểm mua/bán tiềm năng trên biểu đồ.
cover
[BLOG 009] Tại sao không nên lạm dụng biểu đồ hộp (boxplot)
Tháng 06/2024
1. Biểu đồ hộp là gì? Biểu đồ hộp là một công cụ rất phổ biến trong trực quan hóa dữ liệu. Biểu đồ hộp được sử dụng rộng rãi để tổng hợp và hiển thị các đặc điểm quan trọng của dữ liệu Để hiểu rõ về biểu đồ hộp, bạn hãy xem qua ví dụ sau. Giả sử bạn đang phân tích dữ liệu về thu nhập của nhóm đối tượng bạn đang khảo sát.
cover
[Dữ liệu chuỗi thời gian] MÔ HÌNH AR, MA VÀ ARIMA (Phần 2)
Tháng 05/2024
2. THỰC HÀNH TRÊN STATA Trong phần này, chúng ta sẽ sử dụng chỉ số giá tiêu dùng (CPI) của Mỹ từ 1/1/2008 đến 1/2/2021 (tần suất: theo tháng) để tiến hành dự báo với các mô hình được nêu trong bài viết. 2.1. Kiểm định tính dừng của chuỗi số Trước hết, chúng ta cần kiểm định tính dừng của chuỗi CPI bằng kiểm định ADF như sau:
cover
[Dữ liệu chuỗi thời gian] MÔ HÌNH AR, MA VÀ ARIMA (Phần 1)
Tháng 05/2024
Bạn có bao giờ tự hỏi làm thế nào để dự đoán giá cổ phiếu trong tương lai, xu hướng tiêu dùng trong tháng tới, hay lượng mưa trong mùa sắp tới? Chuỗi thời gian - tập dữ liệu ghi lại các giá trị theo thời gian - đóng vai trò then chốt trong việc giải quyết những bài toán dự đoán này. Trong bài viết này, SciEco sẽ giới thiệu ba mô hình thống kê phổ biến cho chuỗi thời gian: AR(p) (Autoregressive), MA(q) (Moving Average) và ARIMA(p,d,q) (Autoregressive Integrated Moving Average). Chúng ta sẽ cùng khám phá cách thức hoạt động, ưu điểm và nhược điểm của từng mô hình trong phần 1 này, cũng như ứng dụng thực tế của chúng trong nhiều lĩnh vực khác nhau tại bài viết tiếp theo. 1. MỘT SỐ LÝ THUYẾT CƠ BẢN 1.1. Mô hình tự hồi quy tổng quát (Autoregressive) – AR(p)
cover
[BLOG 008] Thực hiện Mô hình cấu trúc SEM (Structural Equation Modeling) bằng ngôn ngữ R
Tháng 04/2024
1. Giới thiệu Trong bài viết này, tôi sẽ hướng dẫn độc giả sử dụng R để thực hiện SEM. Bài viết dành cho anh chị đã làm quen với ngôn ngữ R từ trước. Nếu có thắc mắc gì, anh chị vui lòng đặt câu hỏi tại bài viết hoặc facebook page SciEco. Trong thống kê học, Mô hình cấu trúc (SEM) là một công cụ mạnh mẽ được sử dụng để phân tích các mối quan hệ phức tạp giữa các biến. Phương pháp này giúp ta có thể khám phá đồng thời cả tác động nhiều biến số tiềm ẩn. Hãy xem xét ví dụ đơn giản sau đây: sự gắn bó trong công việc của nhân viên tại một công ty do rất nhiều yếu tố, ví dụ môi trường làm việc, đồng nghiệp, cấp trên, áp lực công việc và rất nhiều yếu tố khác. Mục đích của nghiên cứu này là nhằm nghiên cứu các nhân tố ảnh hưởng đến sự gắn bó của nhân viên trong công ty. Tôi đưa ra giả thuyết rằng 5 yếu tố là công việc, văn hoá công ty, lương thưởng và cấp trên sẽ ảnh hưởng đến sự gắn bó của nhân viên trong công ty, theo sơ đồ bên dưới. 2. Cài đặt thư viện
cover
Kiểm định sự phụ thuộc chéo (Cross-sectional Dependence Test) trên STATA
Tháng 04/2024
Sự phụ thuộc chéo Sự phụ thuộc chéo (Cross-Sectional Dependence) đề cập đến mối tương quan giữa các đối tượng tại cùng một thời điểm. Ví dụ về thương mại quốc tế được đại diện bởi tổng kim ngạch xuất nhập khẩu, quan sát tại hai quốc gia A và B, lượng nhập khẩu quốc gia A tăng cũng có nghĩa làm tăng lượng xuất khẩu của quốc gia B, và cùng làm tăng tổng kim ngạch xuất nhập khẩu của cả hai quốc gia. Trên thực tế, hầu hết các quốc gia có hoạt động thương mại qua lại lẫn nhau, dẫn đến sự tương quan về tổng kim ngạch XNK giữa các quốc gia, hay dữ liệu bảng quan sát hoạt động thương mại này có thể tồn tại sự phụ thuộc chéo. Ở khía cạnh kinh tế lượng, sự phụ thuộc chéo thường được xác định dựa trên kiểm định được đề xuất bởi Pesaran (2004). Xét mô hình dữ liệu bảng:
cover
[Dữ liệu chuỗi thời gian] ĐỒNG TÍCH HỢP VÀ MÔ HÌNH HIỆU CHỈNH SAI SỐ
Tháng 03/2024
Trong bài viết này, SciEco cung cấp nội dung về các vấn đề liên quan đến việc ước tính mối quan hệ giữa hai hoặc nhiều chuỗi thời gian không dừng với nghiệm đơn vị và đề cập đến các kỹ thuật kinh tế lượng thích hợp được sử dụng trong phân tích hồi quy với các biến không dừng. I. HỒI QUY GIẢ VÀ ĐỒNG TÍCH HỢP 1. Hồi quy giả: Nếu hồi quy giữa các chuỗi thời gian không có tính dừng với nhau cho các kết quả có ý nghĩa thống kê, tuy nhiên lại không có ý nghĩa về bản chất của mối quan hệ kinh tế. Hiện tượng này được gọi là hồi quy giả (spurious regression) hay hồi quy vô nghĩa (non-sense regression).
cover
[BLOG 007] Viết báo cáo phân tích bằng R và Quarto
Tháng 12/2023
Quarto được xem là thế hệ tiếp theo sau R Markdown, hỗ trợ tạo báo cáo từ đa ngôn ngữ (R và Python) với nhiều tính năng mới. Trong hướng dẫn này, SciEco sẽ chỉ cho bạn cách sử dụng RStudio với Quarto để tạo báo cáo phân tích chuyên nghiệp.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội