messenger_logo
Liên hệ qua Messenger
SciEco

[BLOG 009] Tại sao không nên lạm dụng biểu đồ hộp (boxplot)

KH
Khanh Hoang
Ngày viết: 26/06/2024

1. Biểu đồ hộp là gì?

Biểu đồ hộp là một công cụ rất phổ biến trong trực quan hóa dữ liệu. Biểu đồ hộp được sử dụng rộng rãi để tổng hợp và hiển thị các đặc điểm quan trọng của dữ liệu

Để hiểu rõ về biểu đồ hộp, bạn hãy xem qua ví dụ sau. Giả sử bạn đang phân tích dữ liệu về thu nhập của nhóm đối tượng bạn đang khảo sát.

Bạn có thể quan tâm

Để biết được các thông tin trên, về cơ bản ta có thể sử dụng biểu đồ hộp.

Cụ thể với nhìn trên biểu đồ hộp, ta thấy được:

Tại hai đầu của trái phải của râu hộp (Whisker) biểu thị giá trị thấp nhất và cao nhất, trường hợp này là thu nhập thấp nhất (12.7 triệu đồng) và thu nhập cao nhất (17.6 triệu đồng).

Tại 2 đầu trái phải hộp, là mức phân vị 25 và phân vị 75 của dữ liệu, trong đó:

Tại đường thẳng ở chính giữa hộp, đây là mức phân vị 50 hay còn gọi là Trung vị (14.8 triệu đồng). Ta có thể hiểu rằng có khoảng 50% người được khảo sát có mức thu nhập nhỏ hơn hoặc bằng 14.8 triệu đồng

Ta thấy rằng biểu đồ hộp là biểu đồ rất đơn giản nhưng vẫn có thể đem lại rất nhiều thông tin quan trọng về dữ liệu. Tuy nhiên vì sự tiện dụng mà có rất nhiều phân tích đã lạm dụng biểu đồ này trong phân tích. Dưới đây là lý do tại sao bạn không bên lạm dụng biểu đồ hộp trong phân tích của mình.

2. Tại sao bạn không nên lạm dụng biểu đồ hộp?

Bạn hãy thử nghĩ về cách để vẽ được biểu đồ hộp. Thực chất việc vẽ biểu đồ này rất đơn giản:

Vị trí hay mật độ của các điểm dữ liệu khác ở giữa 5 điểm trên không quan trọng đối với biểu đồ hình hộp. Biểu đồ hộp vẫn không thay đổi miễn là các điểm dữ liệu có thể thay đổi vị trí tùy thích miễn là nó vẫn nằm trong phạm vi của hai điểm chính mà chúng nằm ở giữa.

Ví dụ ta có điểm A là điểm nằm giữa phân vị 25 và trung vị. Như vậy dù điểm A có tăng hay giảm đi miễn là vẫn nằm giữa phân vị 25 và trung vụ thì biểu đồ hộp vẫn không đổi

Theo ví dụ trên giả sử ta thu thập dữ liệu của khu vực A và B, nếu ta chỉ dùng box plot thì có thể thấy thu nhập ở hai thu vực này tương đồng với nhau.

Nhưng khi quan sát kỹ hơn, ta thấy được thực thế thu nhập ở khu vực A nhỉnh hơn so với khu vực B, do đó nếu chỉ sử dụng boxplot ta khó để có thể thấy sự khác biệt này.

Để rõ hơn ta xem hình minh hoạ sau, nguồn: Albert Rapp (2024)

Different Data, Same Boxplot (Albert Rapp, 2024)

Vì vậy, đó là lý do tại sao việc chỉ dựa vào biểu đồ hộp thường không tốt. Thay vào đó, ta có thể kết hợp thêm vào biểu đồ hộp như biểu đồ đàn violin để hiển thị chi tiết hơn sự phân bổ thay vì chỉ dựa các đại lượng chính như phân vị hay lớn nhất nhỏ nhất.

Bạn có thể tìm hiểu cách sử dụng hàm geom_violin để vẽ biểu đồ này.

Hoặc thậm chí xa hơn là kết hợp biểu đồ mưa (raincloud plot) vào biểu đồ hình hộp để hiển thị dữ liệu rõ ràng hơn.

Bạn có thể tìm hiểu hàm stat_halfeyestat_dots trong thư việt ggdist để vẽ biểu đồ này.


Bài viết khác
1. Giới thiệu Phân cụm đồ thị (K-means Clustering) là quá trình phân chia hoặc tách biệt dữ liệu theo các nhóm dựa trên các đặc điểm chung sau đó được biểu thị qua một đồ thị. Phù hợp với những công việc cần phân khúc các tệp khách hàng trong thương mại, phân tích thị trường. Điều này giúp các công ty hiểu rõ hơn về sở thích và nhu cầu của từng nhóm, qua đó đưa ra chiến lược marketing phù hợp. Trong thuật toán phân cụm, K-means là một thuật toán phân cụm đơn giản và phổ biến trong học máy (machine learning) để phân cụm các điểm dữ liệu thành các nhóm riêng biệt dựa trên các đặc điểm của chúng. Thuật toán này dùng để chia dữ liệu thành các nhóm dựa trên khoảng cách giữa các điểm dữ liệu với nhau. 2. Ta cài đặt những thư viện sau
Trong thời đại của số hóa và khoa học dữ liệu lên ngôi, khả năng phân tích, giải mã và trích xuất thông tin hữu ích từ khối lượng dữ liệu khổng lồ là một kỹ năng không thể thiếu để giúp bạn thích nghi với yêu cầu của công việc! Đặc biệt, với việc làm chủ STATA, phần mềm phân tích dữ liệu có giao diện thân thiện và khả năng xử lý dữ liệu mạnh mẽ sẽ là công cụ đắc lực cho bạn. Để có thể giúp bạn chinh phục STATA, SciEco ở đây để mang đến cho bạn khóa học STATA đầy hấp dẫn: Nội dung khóa học chi tiết: Bài 1: Giới thiệu về STATA và VES
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội