messenger_logo
Liên hệ qua Messenger
SciEco

Data Wrangling (Sắp xếp dữ liệu) bằng dplyr

KH
Khanh Hoang
Ngày viết: 29/07/2023

Hôm nay đội ngũ SciEco xin gửi tới các bạn Blog002 về Data Wrangling (Sắp xếp dữ liệu) bằng dplyr

Lưu ý: Để sử dụng dplyr, trước mỗi phiên làm việc cần phải đọc gói bằng lệnh library() để sử dụng

1library(dplyr)

Lấy cột cụ thể trong dataset bằng hàm select()

Đầu tiên, sử dụng hàm glimpse() để xem tổng quan về dữ liệu

1glimpse(starwars)

glimpse() giúp xem nhanh về cấu trúc dữ liệu. Với dataset này bao gồm 87 dòng và 14 cột trong dataset. Ngoài ra ta còn có thể xem nhanh về data type (kiểu dữ liệu) của từng cột và một số dữ liệu đầu tiên trong data

Ta có thể thấy, 3 cột cuối cùng (films, vehicles và starships) có kiểu dữ liệu đặc biệt là kiểu list (xem chi tiết tại đây). Như đã biết, kiểu list trong R giúp ta có thể lưu trữ liệu loại dữ liệu cùng 1 lúc (từng phần tử trong 1 list có thể là số, text, hoặc thậm chí data frame hay list con).

Như vậy cột list này giúp có thể lưu trữ được dạng dữ liệu lồng nhau (nested data) xem chi tiết tại (link). Tuy nhiên trường hợp này ta không cần đến nên có thể dùng hàm select() để chỉ lấy những cột cần dùng.

1starwars %>%
2    select(name, height, mass, hair_color, skin_color,
3					 eye_color,	birth_year,	sex, gender, homeworld, species)

Sau khi sử dụng hàm select, kết quả trả về là 1 data frame với những cột được chọn để sử dụng, những cột không dùng sẽ bị loại bỏ.

Lưu ý rằng, hàm select() không thay đổi dữ liệu gốc mà chỉ trả về 1 data frame mới theo yêu cầu. Do đó, muốn chỉnh sửa data frame gốc cần phải gán ghi đè lại vào biến gốc

1starwars <- starwars %>%
2    select(name, height, mass, hair_color, skin_color,
3					 eye_color,	birth_year,	sex, gender, homeworld, species)

Ngoài chọn cột để dùng, ta có thể dùng dấu - để bỏ đi những cột không cần thiết:

1starwars %>% select(-films, -vehicles, -starships)

Cuối cùng, ta có thể sử dụng : để lấy từ cột này đến cột kia, ví dụ name:species, ta lấy những cột từ cột name đến cột species

1starwars %>% select(name:species)

Đổi tên cột bằng hàm rename()

Ta có thể đổi tên cột bằng cú pháp sau:

1starwars %>% 
2   rename(new_name = old_name)

Ví dụ muốn để tên cột từ height thành height_cm:

1starwars %>% 
2   select(name:species) %>% 
3   rename(height_cm=height)

Sắp xếp (sort) dữ liệu bằng hàm arrange()

1starwars %>% 
2  select(name:mass) %>% 
3  arrange(height)

Ta thấy dữ liệu đã được sắp xếp sao cột cột height theo thứ tự tăng dần

Ta có thể dùng kết hợp hàm desc() để sắp xếp quan sát theo thứ tự giảm dần của cột height

1starwars %>%
2  select(name:mass) %>%
3  arrange(desc(height))

Ta cũng có thể sort cùng lúc nhiều cột cùng lúc như ví dụ sau, cột homeworld được sắp xếp trước theo thứ tự từ A-Z sau đó cột height được sắp xếp theo thứ tự giảm dần.

1starwars %>% 
2  select(name, homeworld, height) %>% 
3  arrange(homeworld, desc(height))

Chọn dòng bất kì bằng slice()

Ví dụ bên dưới, dùng hàm slice() để chỉ lấy 3 dòng đầu tiên

1starwars %>% 
2  slice(1:3) %>%
3	select(height, mass)

Lọc dữ liệu bằng filter()

Ví dụ dưới: ta lọc các dòng với species là Human và homeworld là Tatooine

1starwars %>% 
2  select(name, species, homeworld, height, mass, birth_year) %>% 
3  filter(species=="Human" & homeworld=="Tatooine")

Tạo cột mới bằng mutate()

Giả sử cần tạo cột mới là BMI theo công thức BMI = mass / (height/100)^2

1starwars %>%
2  select(name:mass) %>% 
3  mutate(BMI = mass/((height/100)^2))  
4	# mutate(new_column = something)

Ta có thể tạo cùng lúc nhiều cột bằng cách viết cách nhau bởi dấu phẩy:

1starwars %>%
2  select(name:mass) %>%
3  mutate(
4		height_ft = height * 0.0328084, # convert height from cm into feet
5		weight_pounds = mass * 2.20462  # convert weight from kg into pounds
6	)

Có thể kết hợp mutate với hàm case_when() để tạo cột mới dựa vào điều kiện của cột khác

1starwars %>% 
2  select(name:mass) %>% 
3  mutate(
4		height_ft = height * 0.0328084,
5		height_group = case_when(	
6			is.na(height) ~ "Missing",
7			height_ft<5   ~ "Under 5ft", 
8			height_ft>6   ~ "Over  6ft", 
9			TRUE  ~ "Between 5-6ft"
10		)
11	)

TRUE ~ trong hàm case_when() sẽ nhận những trường hợp còn lại, không thoả các điều kiện bên trên.

Ví dụ bên dưới nếu không sử dụng TRUE ~ sẽ gặp giá trị NA vì không thoả các điều kiện có trong hàm case_when()

1starwars %>% 
2  select(name:mass) %>% 
3  mutate(
4		height_ft = height * 0.0328084,
5		height_group = case_when(
6			is.na(height) ~ "Missing",
7			height_ft<5   ~ "Under 5ft", 
8			height_ft>6   ~ "Over  6ft"
9		)
10	)

Tổng hợp (aggregate) dữ liệu bằng summarise()

Ta có thể tạo bảng tổng hợp dữ liệu bằng hàm summarise có sử dụng kết hợp với các hàm tổng hợp có sẵn, ví dụ tính trung bình mean:

1starwars %>% 
2  summarise(avg_height=mean(height, na.rm=T))

Lưu ý cần phải thêm na.rm=TRUE vì trong dữ liệu bị khuyết (missing data)

Ta có thể tính cùng lúc nhiều thống kê trong 1 bảng, như ví dụ bên dưới:

1starwars %>% 
2  summarise(
3		num_records=n(),                      # Number of records in the table
4		distinct_species=n_distinct(species), # Number of unique values of "species"
5		avg_mass=mean(mass, na.rm=T),         # Average mass excluding any missing values
6		median_mass=median(mass, na.rm=T),    # Median mass excluding any missing values
7		IQR_mass=IQR(mass, na.rm=T),          # The interquartile range for mass excluding any missing values
8		shortest=min(height, na.rm=T),        # Min value of height excluding any missing values
9		tallest=max(height, na.rm=T)          # Max value of height excluding any missing values
10	)          

Tổng hợp theo từng nhóm (Aggregate by groups) bằng group_by()

Tương tự như SQL, ta có thể tổng hợp theo nhóm bằng hàm group_by, ví dụ:

1starwars %>%
2	group_by(species, gender)

Kết quả trả về là 1 data frame, tuy nhiên điểm khác tại dòng thứ hai:

Tức là dữ liệu này đã được nhóm theo 2 cột là species và gender

1Groups: species, gender [42]

Có thể dùng ungroup() để huỷ việc tạo nhóm

1starwars %>% 
2  group_by(species, gender) %>% 
3  ungroup()

Có thể dùng hàm group_vars() để kiểm tra xem dữ liệu đã được nhóm hay chưa, nếu có, kết quả trả về là các cột mà dữ liệu đã được nhóm theo

1starwars %>%
2  group_by(species, gender) %>%
3  group_vars()
1[1] "species" "gender"

Sau khi group_by ta sử dụng hàm summarise để tính toán tổng hợp, ví dụ ta cần tính chiều cao trung bình của từng nhóm

1starwars %>% 
2  group_by(species) %>% 
3  summarise(avg_height = mean(height, na.rm=T))
1# A tibble: 38 x 2
2   species   avg_height
3
4 1 Aleena           79
5 2 Besalisk        198
6 3 Cerean          198
7 4 Chagrian        196
8 5 Clawdite        168
9 6 Droid           131.
10 7 Dug             112
11 8 Ewok             88
12 9 Geonosian       183
1310 Gungan          209.
14# ... with 28 more rows

Ta cũng có thể kết hợp group_by với mutate để tạo cột mới được tổng hợp theo nhóm. Ví dụ ta tạo cột mới avg_species_height là chiều cao trung bình của từng nhóm. Từ nhiều cao trung bình tính toán được, ta phân từng quan sát vào từng nhóm bằng cách tạo biến mới height_group trong đó:

1starwars %>% 
2  select(name, height, species) %>%    
3  group_by(species) %>% 
4  mutate(
5		avg_species_height=mean(height, na.rm=T),
6		height_group=case_when(
7			height/avg_species_height<=.8  ~ "short",
8			height/avg_species_height>=1.2 ~ "tall", 
9			TRUE  ~ "average")
10	)

Bài viết khác
Trong quá trình thực hiện kiểm định giả thuyết không hoặc xây dựng mô hình hồi quy, chúng ta thường xuyên phải đối mặt với bài toán xử lý dữ liệu bị thiếu. Một lời khuyên rất phổ biến là thực hiện điền giá trị trung bình. Cách làm này hiểu đơn giản là thay thế bất kỳ giá trị nào bị khuyết bằng trung bình của biến số đó, được tính toán từ các quan sát hiện có. Tuy nhiên, phương pháp này mang lại những rủi ro ngầm và trong nhiều trường hợp còn tệ hơn là bỏ qua dữ liệu thiếu. Hãy cùng sử dụng ngôn ngữ lập trình để chứng minh điều này. Tác động đến phương sai và độ lệch chuẩn Để bắt đầu, chúng ta sẽ mô phỏng một vector dữ liệu có tên là x tuân theo phân phối chuẩn ngẫu nhiên.
Dữ liệu hiện diện ở khắp mọi nơi. Các cơ quan chính phủ, tổ chức tài chính, trường đại học và nền tảng mạng xã hội thường cung cấp quyền truy cập dữ liệu của họ thông qua API. Hệ thống này đóng vai trò như một cầu nối, thường trả về khối dữ liệu được yêu cầu dưới định dạng tệp JSON. Việc nắm vững cách sử dụng Python để gửi các truy vấn API và xử lý dữ liệu JSON thu được ngay bên trong môi trường Stata là một kỹ năng cực kỳ hữu ích cho quá trình phân tích dữ liệu hiện đại. Khái quát về cấu trúc API và định dạng JSON API là một phần mềm trung gian cho phép hệ thống của bạn yêu cầu dữ liệu từ một hệ thống máy tính khác. Cú pháp truy vấn thường mang tính đặc thù tùy thuộc vào từng hệ thống cung cấp, nhưng một cấu trúc điển hình luôn bắt đầu bằng một URL theo sau là các tùy chọn tham số. Bài viết này sẽ lấy ví dụ về việc sử dụng hệ thống openFDA để truy xuất dữ liệu về các biến cố bất lợi của thuốc từ Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ. Chúng ta hoàn toàn có thể thêm các điều kiện lọc vào lời gọi API để thu hẹp phạm vi dữ liệu trả về. Dữ liệu này hiển thị dưới dạng JSON, một định dạng lưu trữ phổ biến được cấu trúc bởi tập hợp các cặp khóa và giá trị. Khóa hoạt động tương tự như một biến số trong tập dữ liệu Stata, còn giá trị chính là dữ liệu thực tế được ghi nhận.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội