
Dữ liệu hiện diện ở khắp mọi nơi. Các cơ quan chính phủ, tổ chức tài chính, trường đại học và nền tảng mạng xã hội thường cung cấp quyền truy cập dữ liệu của họ thông qua API. Hệ thống này đóng vai trò như một cầu nối, thường trả về khối dữ liệu được yêu cầu dưới định dạng tệp JSON. Việc nắm vững cách sử dụng Python để gửi các truy vấn API và xử lý dữ liệu JSON thu được ngay bên trong môi trường Stata là một kỹ năng cực kỳ hữu ích cho quá trình phân tích dữ liệu hiện đại.
Khái quát về cấu trúc API và định dạng JSON
API là một phần mềm trung gian cho phép hệ thống của bạn yêu cầu dữ liệu từ một hệ thống máy tính khác. Cú pháp truy vấn thường mang tính đặc thù tùy thuộc vào từng hệ thống cung cấp, nhưng một cấu trúc điển hình luôn bắt đầu bằng một URL theo sau là các tùy chọn tham số. Bài viết này sẽ lấy ví dụ về việc sử dụng hệ thống openFDA để truy xuất dữ liệu về các biến cố bất lợi của thuốc từ Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ.
Chúng ta hoàn toàn có thể thêm các điều kiện lọc vào lời gọi API để thu hẹp phạm vi dữ liệu trả về. Dữ liệu này hiển thị dưới dạng JSON, một định dạng lưu trữ phổ biến được cấu trúc bởi tập hợp các cặp khóa và giá trị. Khóa hoạt động tương tự như một biến số trong tập dữ liệu Stata, còn giá trị chính là dữ liệu thực tế được ghi nhận.

Trong bài phân tích trước, chúng ta đã làm quen với mô hình tuyến tính tổng quát thông qua một tập dữ liệu khá đặc biệt: số ca tử vong do ngựa đá trong quân đội Phổ. Tập dữ liệu này đếm số lượng tử vong của các quân đoàn qua từng năm. Vì đây là dữ liệu đếm, chúng ta đã điều chỉnh mô hình tuyến tính để sử dụng phân phối Poisson, đồng thời áp dụng hàm liên kết log.
Tuy nhiên, có một khía cạnh mà chúng ta chưa xem xét: liệu tất cả các quân đoàn có tỷ lệ tử vong giống hệt nhau không?
Khám phá dữ liệu theo từng nhóm
Trước tiên, chúng ta cần thiết lập môi trường trong R.

Trong các phân tích dữ liệu không gian, việc theo dõi sự thay đổi qua thời gian và địa điểm là một kỹ năng quan trọng. Sau khi đã nắm vững cách tải dữ liệu từ kho lưu trữ GitHub, vẽ đồ thị chuỗi thời gian và tạo bản đồ choropleth tĩnh, bước tiếp theo là đưa dữ liệu vào không gian chuyển động. Bài viết này sẽ hướng dẫn bạn cách tạo một bản đồ choropleth động để khám phá sự phân bố của dịch bệnh qua từng ngày.
Cách tạo bản đồ cho từng ngày
Để bắt đầu, chúng ta cần làm sạch và mô tả dữ liệu thô. Dữ liệu này chứa số lượng ca nhiễm tích lũy cho từng quận tại Mỹ bắt đầu từ cuối tháng 1 năm 2020. Các biến số lưu trữ dữ liệu theo ngày được đặt tên theo định dạng từ v12 đến v86.
Quá trình chuẩn bị dữ liệu đòi hỏi chúng ta phải hợp nhất dữ liệu địa lý, dữ liệu ca bệnh và dữ liệu dân số. Chúng ta sử dụng dấu hoa thị như một wildcard trong lệnh gọi biến để giữ lại toàn bộ các cột ngày tháng.

Mô phỏng dược động học và dược lực học luôn là một lĩnh vực đầy thách thức đối với những người làm khoa học dữ liệu trong mảng y sinh. Thay vì chỉ đọc các tài liệu nghiên cứu với những con số mô hình hóa phức tạp, việc trực tiếp viết mã lệnh để thực hiện phân tích Monte Carlo mang lại một góc nhìn trực quan và sâu sắc hơn rất nhiều. Quá trình tính toán xác suất đạt mục tiêu của các nồng độ ức chế tối thiểu khác nhau không chỉ giúp củng cố lý thuyết mà còn mở ra những câu hỏi thú vị về cách thuốc phân bố trong cơ thể. Bài viết này sẽ trình bày cách xây dựng một mô hình cơ bản với gói mrgsolve trong R để mô phỏng nồng độ thuốc ceftriaxone, đồng thời đánh giá tác động của các biến số lâm sàng như độ thanh thải creatinine và tình trạng giảm albumin máu.
Dược động học quần thể và các tham số quan trọng
Dược động học quần thể là một phương pháp thống kê mô tả cách các loại thuốc hoạt động trong cơ thể qua các nhóm người khác nhau, có tính đến sự biến thiên giữa các cá thể. Thay vì nghiên cứu sâu một người, phương pháp này phân tích dữ liệu thưa thớt từ nhiều bệnh nhân để hiểu hành vi dùng thuốc điển hình và lý do tại sao mọi người lại khác nhau về mức độ phơi nhiễm thuốc.
Khi phân tích một nghiên cứu dược động học quần thể, việc xác định đúng các tham số là bước nền tảng. Dựa trên mô hình đánh giá ceftriaxone ở bệnh nhân nhiễm trùng huyết nặng, chúng ta có thể tập trung vào các thông số sau: