messenger_logo
Liên hệ qua Messenger
SciEco

[BLOG 009] Tại sao không nên lạm dụng biểu đồ hộp (boxplot)

KH
Khanh Hoang
Ngày viết: 26/06/2024

1. Biểu đồ hộp là gì?

Biểu đồ hộp là một công cụ rất phổ biến trong trực quan hóa dữ liệu. Biểu đồ hộp được sử dụng rộng rãi để tổng hợp và hiển thị các đặc điểm quan trọng của dữ liệu

Để hiểu rõ về biểu đồ hộp, bạn hãy xem qua ví dụ sau. Giả sử bạn đang phân tích dữ liệu về thu nhập của nhóm đối tượng bạn đang khảo sát.

Bạn có thể quan tâm

Để biết được các thông tin trên, về cơ bản ta có thể sử dụng biểu đồ hộp.

Cụ thể với nhìn trên biểu đồ hộp, ta thấy được:

Tại hai đầu của trái phải của râu hộp (Whisker) biểu thị giá trị thấp nhất và cao nhất, trường hợp này là thu nhập thấp nhất (12.7 triệu đồng) và thu nhập cao nhất (17.6 triệu đồng).

Tại 2 đầu trái phải hộp, là mức phân vị 25 và phân vị 75 của dữ liệu, trong đó:

Tại đường thẳng ở chính giữa hộp, đây là mức phân vị 50 hay còn gọi là Trung vị (14.8 triệu đồng). Ta có thể hiểu rằng có khoảng 50% người được khảo sát có mức thu nhập nhỏ hơn hoặc bằng 14.8 triệu đồng

Ta thấy rằng biểu đồ hộp là biểu đồ rất đơn giản nhưng vẫn có thể đem lại rất nhiều thông tin quan trọng về dữ liệu. Tuy nhiên vì sự tiện dụng mà có rất nhiều phân tích đã lạm dụng biểu đồ này trong phân tích. Dưới đây là lý do tại sao bạn không bên lạm dụng biểu đồ hộp trong phân tích của mình.

2. Tại sao bạn không nên lạm dụng biểu đồ hộp?

Bạn hãy thử nghĩ về cách để vẽ được biểu đồ hộp. Thực chất việc vẽ biểu đồ này rất đơn giản:

Vị trí hay mật độ của các điểm dữ liệu khác ở giữa 5 điểm trên không quan trọng đối với biểu đồ hình hộp. Biểu đồ hộp vẫn không thay đổi miễn là các điểm dữ liệu có thể thay đổi vị trí tùy thích miễn là nó vẫn nằm trong phạm vi của hai điểm chính mà chúng nằm ở giữa.

Ví dụ ta có điểm A là điểm nằm giữa phân vị 25 và trung vị. Như vậy dù điểm A có tăng hay giảm đi miễn là vẫn nằm giữa phân vị 25 và trung vụ thì biểu đồ hộp vẫn không đổi

Theo ví dụ trên giả sử ta thu thập dữ liệu của khu vực A và B, nếu ta chỉ dùng box plot thì có thể thấy thu nhập ở hai thu vực này tương đồng với nhau.

Nhưng khi quan sát kỹ hơn, ta thấy được thực thế thu nhập ở khu vực A nhỉnh hơn so với khu vực B, do đó nếu chỉ sử dụng boxplot ta khó để có thể thấy sự khác biệt này.

Để rõ hơn ta xem hình minh hoạ sau, nguồn: Albert Rapp (2024)

Different Data, Same Boxplot (Albert Rapp, 2024)

Vì vậy, đó là lý do tại sao việc chỉ dựa vào biểu đồ hộp thường không tốt. Thay vào đó, ta có thể kết hợp thêm vào biểu đồ hộp như biểu đồ đàn violin để hiển thị chi tiết hơn sự phân bổ thay vì chỉ dựa các đại lượng chính như phân vị hay lớn nhất nhỏ nhất.

Bạn có thể tìm hiểu cách sử dụng hàm geom_violin để vẽ biểu đồ này.

Hoặc thậm chí xa hơn là kết hợp biểu đồ mưa (raincloud plot) vào biểu đồ hình hộp để hiển thị dữ liệu rõ ràng hơn.

Bạn có thể tìm hiểu hàm stat_halfeyestat_dots trong thư việt ggdist để vẽ biểu đồ này.


Bài viết khác
Trong phần đầu tiên của bài viết này, chúng ta đã thảo luận về mô hình probit đa thức (multinomial probit model) từ góc độ mô hình tiện ích ngẫu nhiên (random utility model). Trong phần này, chúng ta sẽ xem xét kỹ hơn về cách giải thích kết quả ước lượng của mô hình. Chúng ta sẽ sử dụng một tập dữ liệu giả định về các cá nhân được cung cấp ba gói bảo hiểm sức khỏe (Sickmaster, Allgood và Cowboy Health). Chúng ta giả định có một mẫu ngẫu nhiên gồm những người từ 20 đến 60 tuổi được hỏi gói nào họ sẽ chọn nếu phải đăng ký một trong số đó. Tiện ích của một người đối với mỗi trong ba phương án được kỳ vọng là một hàm của cả đặc điểm cá nhân (thu nhập hộ gia đình và tuổi) và đặc điểm của gói bảo hiểm (giá bảo hiểm). Chúng ta đã sử dụng lệnh `asmprobit` của Stata để ước lượng mô hình. Giải Thích Kết Quả Ước Lượng Của Chúng Ta Như Thế Nào? Dưới đây là kết quả từ lệnh `asmprobit` và ma trận hiệp phương sai của sai số chênh lệch đã được ước lượng:
Trong phân tích dữ liệu y sinh và dịch tễ học, việc so sánh các chỉ số giữa các nhóm đối tượng là bước không thể thiếu. Trước khi đi sâu vào mô hình hồi quy, các nhà nghiên cứu thường cần một bảng tổng hợp kết quả kiểm định giả thiết để đánh giá sự khác biệt trung bình hoặc phân phối. Bài viết này sẽ hướng dẫn bạn cách tận dụng tùy chọn lệnh trong cấu trúc bảng của phiên bản mới, biến các đầu ra của kiểm định thống kê thành một báo cáo chuẩn học thuật chỉ bằng vài dòng mã gọn gàng. Chuẩn bị dữ liệu và nền tảng kiểm định Chúng ta bắt đầu bằng cách tải bộ dữ liệu khảo sát sức khỏe quốc gia đã được tích hợp sẵn. Mục tiêu cụ thể ở đây là so sánh các chỉ số sinh học và nhân trắc học giữa nhóm có tiền sử tăng huyết áp và nhóm không có. Biến mã hóa nhóm là highbp.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội