messenger_logo
Liên hệ qua Messenger
SciEco

How to draw 3D Scatter Plot in R?

Đn
Đội ngũ SciEco
Ngày viết: 09/11/2022

Chào các độc giả, sau đây đội ngũ SciEco xin giới thiệu các bạn cách vẽ biểu đồ phân tán 3D - Scatter Plot 3D bằng ngôn ngữ R.

Giới thiệu biểu đồ phân tán

Nếu bạn chưa từng nghe đến biểu đồ phân tán, hay scatter plot, thì chắc chắn bạn sẽ đặt ra câu hỏi "Scatter Plot là gì?". Vậy thì trước tiên, chúng ta hãy đi tìm hiểu về tác dụng của biểu đồ scatter plot đối với các thao tác thống kê bằng ngôn ngữ R nhé.

Công dụng của biểu đồ phân tán

Để trả lời cho câu hỏi "Scatter Plot là gì?", chúng ta cần hiểu dữ liệu mà loại biểu đồ này thể hiện. Dưới đây là câu trả lời Gitiho dành cho bạn:

Biểu đồ phân tán (scatter plot) là loại biểu đồ trực quan hóa mối tương quan giữa 2 biến số dựa vào các tọa độ toán học. Mối tương quan này được biểu diễn dưới dạng các dấu chấm tròn đại diện cho 2 biến, với một biến phụ thuộc chạy cố định trên trục tung và một biến độc lập chạy cố định dựa vào trục hoành. Bằng cách vẽ biểu đồ tương quan, bạn có thể nhìn thấy kết quả của biến phụ thuộc dựa trên các mốc biến độc lập.

Với chức năng biểu của mình, biểu đồ phân tán thường được sử dụng để thể hiện các mối quan hệ nguyên nhân - kết quả. Không khó để tìm thấy các ứng dụng của biểu đồ này trong thực tiễn đời sống chúng ta. Một số ví dụ có thể kể đến như mối liên hệ giữa chi phí Marketing và độ nhận diện thương hiệu, kết quả doanh thu dựa trên các mức giảm giá ưu đãi,...

Đặc điểm của biểu đồ phân tán

Sau câu hỏi "Scatter plot là gì?", chúng ta đến với câu hỏi "Vậy biểu đồ phân tán có những ưu điểm và nhược điểm gì?". Câu trả lời được trình bày như sau:

Ưu điểm

Nhược điểm

Hầu hết các nhược điểm của biểu đồ phân tán đến từ các đặc điểm sai lệch của dữ liệu. Chính vì vậy, nếu được sử dụng đúng cách, loại biểu đồ này vẫn có thể mang lại hiệu quả cao trong việc tìm mối tương quan giữa các biến số, tìm các giá trị ngoại lai, biểu diễn các xu hướng số liệu.

Cách vẽ biểu đồ Scatter Plot 3D bằng ngôn ngữ R

Trong phần này, chúng ta sẽ cùng thực hành cách vẽ biểu đồ tương quan 3D qua một ví dụ cụ thể. Bạn hãy mở ứng dụng R và thực hiện lần lượt các bước với mình nhé.

File data thực hành

Đoạn code:

1library(plotly)
2
3file <- file.choose()
4data <- read.csv(file)
5
6plot_ly(
7  data,
8  x = ~gdpPercap,
9  y = ~lifeExp,
10  z = ~pop,
11  color = ~continent,
12  size = ~pop,
13  marker = list(sizemode = "diameter"),
14  sizes = c(1, 150)
15) %>%
16  layout(
17    scene = list(
18      xaxis = list(title = "GDP per capita (2000 dollars)"),
19      yaxis = list(title = "Life Expectancy (years)"),
20      zaxis = list(type = "log", title = "Population")
21  )
22)

Đoạn code trên tạo nên một hình như sau:

Tổng kết

Như vậy, chúng ta đã vừa học cách vẽ Scatter Plot 3D bằng ngôn ngữ R. Đây là một công cụ biểu đồ được dễ ứng dụng và mang tính trực quan cao nên có lẽ bạn sẽ không gặp nhiều khó khăn khi sử dụng. Hãy ghi nhớ cách thiết lập các yếu tố trong biểu đồ phân tán 3D để biểu diễn số liệu hợp lý nhất nhé.

Để học thêm các dạng biểu đồ từ cơ bản đến nâng cao cũng như các thao tác bằng ngôn ngữ R khác hữu ích cho công việc của mình, bạn hãy tham khảo thêm các bài viết về chủ đề này trên blog Science For Economcis nhé.

SciEco xin cảm ơn bạn đọc và chúc bạn thành công!


Bài viết khác
Trong bài viết này, SciEco sẽ giúp bạn làm rõ sự khác biệt giữa hai thuật ngữ thường xuyên xuất hiện trên các trang báo kinh tế quốc tế (Stock, Flow or Impulse?, n.d.). Mặc dù có vẻ đơn giản, nhưng chúng lại dễ gây nhầm lẫn, đặc biệt là khi bạn tiếp cận những bài viết chuyên sâu về lĩnh vực kinh tế.
1. Giới thiệu Phân cụm đồ thị (K-means Clustering) là quá trình phân chia hoặc tách biệt dữ liệu theo các nhóm dựa trên các đặc điểm chung sau đó được biểu thị qua một đồ thị. Phù hợp với những công việc cần phân khúc các tệp khách hàng trong thương mại, phân tích thị trường. Điều này giúp các công ty hiểu rõ hơn về sở thích và nhu cầu của từng nhóm, qua đó đưa ra chiến lược marketing phù hợp. Trong thuật toán phân cụm, K-means là một thuật toán phân cụm đơn giản và phổ biến trong học máy (machine learning) để phân cụm các điểm dữ liệu thành các nhóm riêng biệt dựa trên các đặc điểm của chúng. Thuật toán này dùng để chia dữ liệu thành các nhóm dựa trên khoảng cách giữa các điểm dữ liệu với nhau. 2. Ta cài đặt những thư viện sau
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội