messenger_logo
Liên hệ qua Messenger
SciEco

How to draw 3D Scatter Plot in R?

Đn
Đội ngũ SciEco
Ngày viết: 09/11/2022

Chào các độc giả, sau đây đội ngũ SciEco xin giới thiệu các bạn cách vẽ biểu đồ phân tán 3D - Scatter Plot 3D bằng ngôn ngữ R.

Giới thiệu biểu đồ phân tán

Nếu bạn chưa từng nghe đến biểu đồ phân tán, hay scatter plot, thì chắc chắn bạn sẽ đặt ra câu hỏi "Scatter Plot là gì?". Vậy thì trước tiên, chúng ta hãy đi tìm hiểu về tác dụng của biểu đồ scatter plot đối với các thao tác thống kê bằng ngôn ngữ R nhé.

Công dụng của biểu đồ phân tán

Để trả lời cho câu hỏi "Scatter Plot là gì?", chúng ta cần hiểu dữ liệu mà loại biểu đồ này thể hiện. Dưới đây là câu trả lời Gitiho dành cho bạn:

Biểu đồ phân tán (scatter plot) là loại biểu đồ trực quan hóa mối tương quan giữa 2 biến số dựa vào các tọa độ toán học. Mối tương quan này được biểu diễn dưới dạng các dấu chấm tròn đại diện cho 2 biến, với một biến phụ thuộc chạy cố định trên trục tung và một biến độc lập chạy cố định dựa vào trục hoành. Bằng cách vẽ biểu đồ tương quan, bạn có thể nhìn thấy kết quả của biến phụ thuộc dựa trên các mốc biến độc lập.

Với chức năng biểu của mình, biểu đồ phân tán thường được sử dụng để thể hiện các mối quan hệ nguyên nhân - kết quả. Không khó để tìm thấy các ứng dụng của biểu đồ này trong thực tiễn đời sống chúng ta. Một số ví dụ có thể kể đến như mối liên hệ giữa chi phí Marketing và độ nhận diện thương hiệu, kết quả doanh thu dựa trên các mức giảm giá ưu đãi,...

Đặc điểm của biểu đồ phân tán

Sau câu hỏi "Scatter plot là gì?", chúng ta đến với câu hỏi "Vậy biểu đồ phân tán có những ưu điểm và nhược điểm gì?". Câu trả lời được trình bày như sau:

Ưu điểm

Nhược điểm

Hầu hết các nhược điểm của biểu đồ phân tán đến từ các đặc điểm sai lệch của dữ liệu. Chính vì vậy, nếu được sử dụng đúng cách, loại biểu đồ này vẫn có thể mang lại hiệu quả cao trong việc tìm mối tương quan giữa các biến số, tìm các giá trị ngoại lai, biểu diễn các xu hướng số liệu.

Cách vẽ biểu đồ Scatter Plot 3D bằng ngôn ngữ R

Trong phần này, chúng ta sẽ cùng thực hành cách vẽ biểu đồ tương quan 3D qua một ví dụ cụ thể. Bạn hãy mở ứng dụng R và thực hiện lần lượt các bước với mình nhé.

File data thực hành

Đoạn code:

1library(plotly)
2
3file <- file.choose()
4data <- read.csv(file)
5
6plot_ly(
7  data,
8  x = ~gdpPercap,
9  y = ~lifeExp,
10  z = ~pop,
11  color = ~continent,
12  size = ~pop,
13  marker = list(sizemode = "diameter"),
14  sizes = c(1, 150)
15) %>%
16  layout(
17    scene = list(
18      xaxis = list(title = "GDP per capita (2000 dollars)"),
19      yaxis = list(title = "Life Expectancy (years)"),
20      zaxis = list(type = "log", title = "Population")
21  )
22)

Đoạn code trên tạo nên một hình như sau:

Tổng kết

Như vậy, chúng ta đã vừa học cách vẽ Scatter Plot 3D bằng ngôn ngữ R. Đây là một công cụ biểu đồ được dễ ứng dụng và mang tính trực quan cao nên có lẽ bạn sẽ không gặp nhiều khó khăn khi sử dụng. Hãy ghi nhớ cách thiết lập các yếu tố trong biểu đồ phân tán 3D để biểu diễn số liệu hợp lý nhất nhé.

Để học thêm các dạng biểu đồ từ cơ bản đến nâng cao cũng như các thao tác bằng ngôn ngữ R khác hữu ích cho công việc của mình, bạn hãy tham khảo thêm các bài viết về chủ đề này trên blog Science For Economcis nhé.

SciEco xin cảm ơn bạn đọc và chúc bạn thành công!


Bài viết khác
Trong nghiên cứu ứng dụng, các mô hình chiều cao, tức là những mô hình có quá nhiều biến giải thích tiềm năng so với kích thước mẫu hiện có, đang ngày càng trở nên phổ biến. Lasso, một kỹ thuật được thảo luận trong các bài viết trước, có thể được dùng để ước lượng các hệ số quan tâm trong mô hình chiều cao. Bài viết này sẽ đi sâu vào các lệnh trong Stata 16 giúp ước lượng các hệ số này một cách đáng tin cậy. Để minh họa vấn đề, chúng ta sẽ xem xét một ví dụ từ dữ liệu mà Sunyer cùng cộng sự (2017) đã sử dụng để ước lượng ảnh hưởng của ô nhiễm không khí lên thời gian phản ứng của học sinh tiểu học. Mô hình tổng quát có thể được biểu diễn như sau: biến thời gian phản ứng htime của cá nhân i được giải thích bởi mức độ ô nhiễm no2_class của trường học cá nhân i nhân với hệ số gamma, cộng với tích của véctơ biến kiểm soát x_i và véctơ hệ số beta, cùng với thành phần sai số epsilon_i. Cụ thể, htime là thước đo thời gian phản ứng của trẻ i trong một bài kiểm tra, no2_class đo mức độ ô nhiễm trong trường học của trẻ i, và véctơ x_i chứa các biến kiểm soát cần được đưa vào mô hình. Vấn đề đặt ra là có tới 252 biến kiểm soát tiềm năng trong x, nhưng chúng ta chỉ có 1.084 quan sát. Phương pháp thông thường là hồi quy htime theo no2_class và tất cả 252 biến kiểm soát trong x sẽ không tạo ra các ước lượng đáng tin cậy cho hệ số gamma. Nhìn kỹ hơn vào vấn đề, chúng ta thấy nhiều biến kiểm soát là các thành phần bậc hai. Chúng ta nghĩ rằng cần đưa một số trong các thành phần này vào, nhưng không quá nhiều, cùng với no2_class để có được một xấp xỉ tốt cho quá trình tạo ra dữ liệu.
Trong phiên bản Stata 17, hệ thống tạo bảng biểu đã được nâng cấp toàn diện, mang lại khả năng tùy biến mạnh mẽ và linh hoạt. Không chỉ dừng lại ở việc mở rộng chức năng của lệnh table, Stata còn giới thiệu một hệ thống hoàn toàn mới cho phép thu thập kết quả từ bất kỳ lệnh nào, thiết kế bố cục theo ý muốn và xuất bản trực tiếp sang các định dạng tài liệu phổ biến. Bài viết này sẽ hướng dẫn bạn những bước đầu tiên để làm quen với lệnh table cải tiến. Những Ví Dụ Điển Hình Về Bảng Biểu Tùy Chỉnh Trước khi đi sâu vào cú pháp, hãy cùng điểm qua một số mẫu bảng biểu mà bạn có thể dễ dàng tạo ra bằng hệ thống mới này.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội