How to draw 3D Scatter Plot in R? - Science for Economics

Chào các độc giả, sau đây đội ngũ SciEco xin giới thiệu các bạn cách vẽ biểu đồ phân tán 3D - Scatter Plot 3D bằng ngôn ngữ R.

Giới thiệu biểu đồ phân tán

Nếu bạn chưa từng nghe đến biểu đồ phân tán, hay scatter plot, thì chắc chắn bạn sẽ đặt ra câu hỏi "Scatter Plot là gì?". Vậy thì trước tiên, chúng ta hãy đi tìm hiểu về tác dụng của biểu đồ scatter plot đối với các thao tác thống kê bằng ngôn ngữ R nhé.

Công dụng của biểu đồ phân tán

Để trả lời cho câu hỏi "Scatter Plot là gì?", chúng ta cần hiểu dữ liệu mà loại biểu đồ này thể hiện. Dưới đây là câu trả lời Gitiho dành cho bạn:

Biểu đồ phân tán (scatter plot) là loại biểu đồ trực quan hóa mối tương quan giữa 2 biến số dựa vào các tọa độ toán học. Mối tương quan này được biểu diễn dưới dạng các dấu chấm tròn đại diện cho 2 biến, với một biến phụ thuộc chạy cố định trên trục tung và một biến độc lập chạy cố định dựa vào trục hoành. Bằng cách vẽ biểu đồ tương quan, bạn có thể nhìn thấy kết quả của biến phụ thuộc dựa trên các mốc biến độc lập.

Với chức năng biểu của mình, biểu đồ phân tán thường được sử dụng để thể hiện các mối quan hệ nguyên nhân - kết quả. Không khó để tìm thấy các ứng dụng của biểu đồ này trong thực tiễn đời sống chúng ta. Một số ví dụ có thể kể đến như mối liên hệ giữa chi phí Marketing và độ nhận diện thương hiệu, kết quả doanh thu dựa trên các mức giảm giá ưu đãi,...

Đặc điểm của biểu đồ phân tán

Sau câu hỏi "Scatter plot là gì?", chúng ta đến với câu hỏi "Vậy biểu đồ phân tán có những ưu điểm và nhược điểm gì?". Câu trả lời được trình bày như sau:

Ưu điểm

Dễ vẽ
Minh họa rõ mối tương quan giữa các biến số và xu hướng dữ liệu
Biểu diễn toàn bộ dữ liệu từ nhỏ nhất đến lớn nhất và cả các giá trị ngoại lai
Thích hợp với nhiều kiểu dữ liệu trong nhiều ngành nghề

Nhược điểm

Khó đưa ra kết quả chính xác cho hệ số tương quan giữa các biến số
Phán đoán dựa trên biểu đồ mang tính chủ quan
Các biến số phải là biến liên tục
Giới hạn 2 biến số trên một biểu đồ

Hầu hết các nhược điểm của biểu đồ phân tán đến từ các đặc điểm sai lệch của dữ liệu. Chính vì vậy, nếu được sử dụng đúng cách, loại biểu đồ này vẫn có thể mang lại hiệu quả cao trong việc tìm mối tương quan giữa các biến số, tìm các giá trị ngoại lai, biểu diễn các xu hướng số liệu.

Cách vẽ biểu đồ Scatter Plot 3D bằng ngôn ngữ R

Trong phần này, chúng ta sẽ cùng thực hành cách vẽ biểu đồ tương quan 3D qua một ví dụ cụ thể. Bạn hãy mở ứng dụng R và thực hiện lần lượt các bước với mình nhé.

File data thực hành

Đoạn code:

1library(plotly)
2
3file <- file.choose()
4data <- read.csv(file)
5
6plot_ly(
7  data,
8  x = ~gdpPercap,
9  y = ~lifeExp,
10  z = ~pop,
11  color = ~continent,
12  size = ~pop,
13  marker = list(sizemode = "diameter"),
14  sizes = c(1, 150)
15) %>%
16  layout(
17    scene = list(
18      xaxis = list(title = "GDP per capita (2000 dollars)"),
19      yaxis = list(title = "Life Expectancy (years)"),
20      zaxis = list(type = "log", title = "Population")
21  )
22)

Đoạn code trên tạo nên một hình như sau:

Tổng kết

Như vậy, chúng ta đã vừa học cách vẽ Scatter Plot 3D bằng ngôn ngữ R. Đây là một công cụ biểu đồ được dễ ứng dụng và mang tính trực quan cao nên có lẽ bạn sẽ không gặp nhiều khó khăn khi sử dụng. Hãy ghi nhớ cách thiết lập các yếu tố trong biểu đồ phân tán 3D để biểu diễn số liệu hợp lý nhất nhé.

Để học thêm các dạng biểu đồ từ cơ bản đến nâng cao cũng như các thao tác bằng ngôn ngữ R khác hữu ích cho công việc của mình, bạn hãy tham khảo thêm các bài viết về chủ đề này trên blog Science For Economcis nhé.

SciEco xin cảm ơn bạn đọc và chúc bạn thành công!