messenger_logo
Liên hệ qua Messenger
SciEco

[BLOG 009] Tại sao không nên lạm dụng biểu đồ hộp (boxplot)

KH
Khanh Hoang
Ngày viết: 26/06/2024

1. Biểu đồ hộp là gì?

Biểu đồ hộp là một công cụ rất phổ biến trong trực quan hóa dữ liệu. Biểu đồ hộp được sử dụng rộng rãi để tổng hợp và hiển thị các đặc điểm quan trọng của dữ liệu

Để hiểu rõ về biểu đồ hộp, bạn hãy xem qua ví dụ sau. Giả sử bạn đang phân tích dữ liệu về thu nhập của nhóm đối tượng bạn đang khảo sát.

Bạn có thể quan tâm

Để biết được các thông tin trên, về cơ bản ta có thể sử dụng biểu đồ hộp.

Cụ thể với nhìn trên biểu đồ hộp, ta thấy được:

Tại hai đầu của trái phải của râu hộp (Whisker) biểu thị giá trị thấp nhất và cao nhất, trường hợp này là thu nhập thấp nhất (12.7 triệu đồng) và thu nhập cao nhất (17.6 triệu đồng).

Tại 2 đầu trái phải hộp, là mức phân vị 25 và phân vị 75 của dữ liệu, trong đó:

Tại đường thẳng ở chính giữa hộp, đây là mức phân vị 50 hay còn gọi là Trung vị (14.8 triệu đồng). Ta có thể hiểu rằng có khoảng 50% người được khảo sát có mức thu nhập nhỏ hơn hoặc bằng 14.8 triệu đồng

Ta thấy rằng biểu đồ hộp là biểu đồ rất đơn giản nhưng vẫn có thể đem lại rất nhiều thông tin quan trọng về dữ liệu. Tuy nhiên vì sự tiện dụng mà có rất nhiều phân tích đã lạm dụng biểu đồ này trong phân tích. Dưới đây là lý do tại sao bạn không bên lạm dụng biểu đồ hộp trong phân tích của mình.

2. Tại sao bạn không nên lạm dụng biểu đồ hộp?

Bạn hãy thử nghĩ về cách để vẽ được biểu đồ hộp. Thực chất việc vẽ biểu đồ này rất đơn giản:

Vị trí hay mật độ của các điểm dữ liệu khác ở giữa 5 điểm trên không quan trọng đối với biểu đồ hình hộp. Biểu đồ hộp vẫn không thay đổi miễn là các điểm dữ liệu có thể thay đổi vị trí tùy thích miễn là nó vẫn nằm trong phạm vi của hai điểm chính mà chúng nằm ở giữa.

Ví dụ ta có điểm A là điểm nằm giữa phân vị 25 và trung vị. Như vậy dù điểm A có tăng hay giảm đi miễn là vẫn nằm giữa phân vị 25 và trung vụ thì biểu đồ hộp vẫn không đổi

Theo ví dụ trên giả sử ta thu thập dữ liệu của khu vực A và B, nếu ta chỉ dùng box plot thì có thể thấy thu nhập ở hai thu vực này tương đồng với nhau.

Nhưng khi quan sát kỹ hơn, ta thấy được thực thế thu nhập ở khu vực A nhỉnh hơn so với khu vực B, do đó nếu chỉ sử dụng boxplot ta khó để có thể thấy sự khác biệt này.

Để rõ hơn ta xem hình minh hoạ sau, nguồn: Albert Rapp (2024)

Different Data, Same Boxplot (Albert Rapp, 2024)

Vì vậy, đó là lý do tại sao việc chỉ dựa vào biểu đồ hộp thường không tốt. Thay vào đó, ta có thể kết hợp thêm vào biểu đồ hộp như biểu đồ đàn violin để hiển thị chi tiết hơn sự phân bổ thay vì chỉ dựa các đại lượng chính như phân vị hay lớn nhất nhỏ nhất.

Bạn có thể tìm hiểu cách sử dụng hàm geom_violin để vẽ biểu đồ này.

Hoặc thậm chí xa hơn là kết hợp biểu đồ mưa (raincloud plot) vào biểu đồ hình hộp để hiển thị dữ liệu rõ ràng hơn.

Bạn có thể tìm hiểu hàm stat_halfeyestat_dots trong thư việt ggdist để vẽ biểu đồ này.


Bài viết khác
Trong thế giới khoa học dữ liệu hiện đại, việc phân tích các bộ dữ liệu khổng lồ và phức tạp là một thách thức không ngừng. Các nhà nghiên cứu thường phải làm việc với nhiều bộ dữ liệu liên quan cùng một lúc, đòi hỏi các công cụ quản lý dữ liệu hiệu quả và linh hoạt. Stata, với lịch sử lâu đời trong việc xử lý và phân tích dữ liệu, đã liên tục đổi mới để đáp ứng những nhu cầu này. Stata 18, ra mắt vào năm 2023, tiếp tục nâng cao khả năng này bằng cách giới thiệu hai tính năng đột phá: framesets và biến số bí danh giữa các frames. Những cải tiến này cho phép người dùng quản lý và tương tác với nhiều bộ dữ liệu, có thể rất lớn, một cách hiệu quả và thuận tiện hơn bao giờ hết. Framesets cho phép bạn nhóm, lưu trữ trên ổ đĩa và tải vào bộ nhớ một tập hợp các frames chứa bộ dữ liệu liên quan. Biến số bí danh cho phép bạn truy cập các biến số trong các frames khác như thể chúng là một phần của frame hiện tại, với chi phí bộ nhớ rất thấp. Bài viết này sẽ đi sâu vào cách những tính năng này cách mạng hóa quy trình làm việc dữ liệu trong Stata. Quản Lý Dữ Liệu Trong Stata: Hành Trình Phát Triển Từ khi Stata 1.0 ra đời vào năm 1985, dữ liệu đã được tổ chức dưới dạng bảng với các quan sát (hàng) và biến số (cột), được gọi là bộ dữ liệu. Các bộ dữ liệu này được lưu trữ hoàn toàn trong bộ nhớ và ghi vào ổ đĩa dưới dạng tệp .dta. Các kiểu dữ liệu, như số nguyên, số thực và đặc biệt là chuỗi, được quản lý một cách tiết kiệm. Hầu hết các lệnh ban đầu của Stata, bao gồm generate, replace và list không thể thiếu, đều tập trung vào quản lý dữ liệu.
Việc xác định tính dừng của một chuỗi thời gian là bước quan trọng hàng đầu trước khi bắt đầu bất kỳ phân tích chuyên sâu nào. Hầu hết các đặc tính thống kê của những mô hình ước lượng trong chuỗi thời gian đều dựa trên giả định rằng dữ liệu phải đạt trạng thái dừng yếu. Nói một cách đơn giản, một quy trình dừng yếu có trung bình, phương sai và hiệp phương sai tự hồi quy không thay đổi theo thời gian. Tuy nhiên, trong thực tế, nhiều chuỗi dữ liệu quan sát được thường chứa các thành phần xu hướng khiến chúng trở nên không dừng. Các xu hướng này có thể là tất định hoặc ngẫu nhiên. Việc phân biệt chính xác loại xu hướng là cực kỳ quan trọng vì mỗi loại yêu cầu một phương pháp xử lý khác nhau để đưa chuỗi về trạng thái dừng. Ví dụ, một xu hướng ngẫu nhiên, thường được gọi là nghiệm đơn vị, có thể được loại bỏ bằng cách lấy sai phân. Ngược lại, nếu chúng ta lấy sai phân một chuỗi có xu hướng tất định, chúng ta sẽ vô tình tạo ra nghiệm đơn vị trong quy trình trung bình trượt. Hiểu về xu hướng ngẫu nhiên và tất định Một ví dụ điển hình của quy trình có xu hướng ngẫu nhiên là bước ngẫu nhiên. Trong mô hình này, giá trị hiện tại được xác định bởi giá trị ngay trước đó cộng với một sai số ngẫu nhiên có trung bình bằng không và phương sai không đổi. Nếu quy trình bắt đầu từ giá trị khởi tạo bằng không, giá trị tại bất kỳ thời điểm nào cũng chính là tổng của các sai số ngẫu nhiên tích lũy. Khi đó, phương sai của chuỗi sẽ tăng dần theo thời gian, khiến chuỗi không đạt được tính dừng.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội