messenger_logo
Liên hệ qua Messenger
SciEco

Data Wrangling (Sắp xếp dữ liệu) bằng dplyr

KH
Khanh Hoang
Ngày viết: 29/07/2023

Hôm nay đội ngũ SciEco xin gửi tới các bạn Blog002 về Data Wrangling (Sắp xếp dữ liệu) bằng dplyr

Lưu ý: Để sử dụng dplyr, trước mỗi phiên làm việc cần phải đọc gói bằng lệnh library() để sử dụng

1library(dplyr)

Lấy cột cụ thể trong dataset bằng hàm select()

Đầu tiên, sử dụng hàm glimpse() để xem tổng quan về dữ liệu

1glimpse(starwars)

glimpse() giúp xem nhanh về cấu trúc dữ liệu. Với dataset này bao gồm 87 dòng và 14 cột trong dataset. Ngoài ra ta còn có thể xem nhanh về data type (kiểu dữ liệu) của từng cột và một số dữ liệu đầu tiên trong data

Ta có thể thấy, 3 cột cuối cùng (films, vehicles và starships) có kiểu dữ liệu đặc biệt là kiểu list (xem chi tiết tại đây). Như đã biết, kiểu list trong R giúp ta có thể lưu trữ liệu loại dữ liệu cùng 1 lúc (từng phần tử trong 1 list có thể là số, text, hoặc thậm chí data frame hay list con).

Như vậy cột list này giúp có thể lưu trữ được dạng dữ liệu lồng nhau (nested data) xem chi tiết tại (link). Tuy nhiên trường hợp này ta không cần đến nên có thể dùng hàm select() để chỉ lấy những cột cần dùng.

1starwars %>%
2    select(name, height, mass, hair_color, skin_color,
3					 eye_color,	birth_year,	sex, gender, homeworld, species)

Sau khi sử dụng hàm select, kết quả trả về là 1 data frame với những cột được chọn để sử dụng, những cột không dùng sẽ bị loại bỏ.

Lưu ý rằng, hàm select() không thay đổi dữ liệu gốc mà chỉ trả về 1 data frame mới theo yêu cầu. Do đó, muốn chỉnh sửa data frame gốc cần phải gán ghi đè lại vào biến gốc

1starwars <- starwars %>%
2    select(name, height, mass, hair_color, skin_color,
3					 eye_color,	birth_year,	sex, gender, homeworld, species)

Ngoài chọn cột để dùng, ta có thể dùng dấu - để bỏ đi những cột không cần thiết:

1starwars %>% select(-films, -vehicles, -starships)

Cuối cùng, ta có thể sử dụng : để lấy từ cột này đến cột kia, ví dụ name:species, ta lấy những cột từ cột name đến cột species

1starwars %>% select(name:species)

Đổi tên cột bằng hàm rename()

Ta có thể đổi tên cột bằng cú pháp sau:

1starwars %>% 
2   rename(new_name = old_name)

Ví dụ muốn để tên cột từ height thành height_cm:

1starwars %>% 
2   select(name:species) %>% 
3   rename(height_cm=height)

Sắp xếp (sort) dữ liệu bằng hàm arrange()

1starwars %>% 
2  select(name:mass) %>% 
3  arrange(height)

Ta thấy dữ liệu đã được sắp xếp sao cột cột height theo thứ tự tăng dần

Ta có thể dùng kết hợp hàm desc() để sắp xếp quan sát theo thứ tự giảm dần của cột height

1starwars %>%
2  select(name:mass) %>%
3  arrange(desc(height))

Ta cũng có thể sort cùng lúc nhiều cột cùng lúc như ví dụ sau, cột homeworld được sắp xếp trước theo thứ tự từ A-Z sau đó cột height được sắp xếp theo thứ tự giảm dần.

1starwars %>% 
2  select(name, homeworld, height) %>% 
3  arrange(homeworld, desc(height))

Chọn dòng bất kì bằng slice()

Ví dụ bên dưới, dùng hàm slice() để chỉ lấy 3 dòng đầu tiên

1starwars %>% 
2  slice(1:3) %>%
3	select(height, mass)

Lọc dữ liệu bằng filter()

Ví dụ dưới: ta lọc các dòng với species là Human và homeworld là Tatooine

1starwars %>% 
2  select(name, species, homeworld, height, mass, birth_year) %>% 
3  filter(species=="Human" & homeworld=="Tatooine")

Tạo cột mới bằng mutate()

Giả sử cần tạo cột mới là BMI theo công thức BMI = mass / (height/100)^2

1starwars %>%
2  select(name:mass) %>% 
3  mutate(BMI = mass/((height/100)^2))  
4	# mutate(new_column = something)

Ta có thể tạo cùng lúc nhiều cột bằng cách viết cách nhau bởi dấu phẩy:

1starwars %>%
2  select(name:mass) %>%
3  mutate(
4		height_ft = height * 0.0328084, # convert height from cm into feet
5		weight_pounds = mass * 2.20462  # convert weight from kg into pounds
6	)

Có thể kết hợp mutate với hàm case_when() để tạo cột mới dựa vào điều kiện của cột khác

1starwars %>% 
2  select(name:mass) %>% 
3  mutate(
4		height_ft = height * 0.0328084,
5		height_group = case_when(	
6			is.na(height) ~ "Missing",
7			height_ft<5   ~ "Under 5ft", 
8			height_ft>6   ~ "Over  6ft", 
9			TRUE  ~ "Between 5-6ft"
10		)
11	)

TRUE ~ trong hàm case_when() sẽ nhận những trường hợp còn lại, không thoả các điều kiện bên trên.

Ví dụ bên dưới nếu không sử dụng TRUE ~ sẽ gặp giá trị NA vì không thoả các điều kiện có trong hàm case_when()

1starwars %>% 
2  select(name:mass) %>% 
3  mutate(
4		height_ft = height * 0.0328084,
5		height_group = case_when(
6			is.na(height) ~ "Missing",
7			height_ft<5   ~ "Under 5ft", 
8			height_ft>6   ~ "Over  6ft"
9		)
10	)

Tổng hợp (aggregate) dữ liệu bằng summarise()

Ta có thể tạo bảng tổng hợp dữ liệu bằng hàm summarise có sử dụng kết hợp với các hàm tổng hợp có sẵn, ví dụ tính trung bình mean:

1starwars %>% 
2  summarise(avg_height=mean(height, na.rm=T))

Lưu ý cần phải thêm na.rm=TRUE vì trong dữ liệu bị khuyết (missing data)

Ta có thể tính cùng lúc nhiều thống kê trong 1 bảng, như ví dụ bên dưới:

1starwars %>% 
2  summarise(
3		num_records=n(),                      # Number of records in the table
4		distinct_species=n_distinct(species), # Number of unique values of "species"
5		avg_mass=mean(mass, na.rm=T),         # Average mass excluding any missing values
6		median_mass=median(mass, na.rm=T),    # Median mass excluding any missing values
7		IQR_mass=IQR(mass, na.rm=T),          # The interquartile range for mass excluding any missing values
8		shortest=min(height, na.rm=T),        # Min value of height excluding any missing values
9		tallest=max(height, na.rm=T)          # Max value of height excluding any missing values
10	)          

Tổng hợp theo từng nhóm (Aggregate by groups) bằng group_by()

Tương tự như SQL, ta có thể tổng hợp theo nhóm bằng hàm group_by, ví dụ:

1starwars %>%
2	group_by(species, gender)

Kết quả trả về là 1 data frame, tuy nhiên điểm khác tại dòng thứ hai:

Tức là dữ liệu này đã được nhóm theo 2 cột là species và gender

1Groups: species, gender [42]

Có thể dùng ungroup() để huỷ việc tạo nhóm

1starwars %>% 
2  group_by(species, gender) %>% 
3  ungroup()

Có thể dùng hàm group_vars() để kiểm tra xem dữ liệu đã được nhóm hay chưa, nếu có, kết quả trả về là các cột mà dữ liệu đã được nhóm theo

1starwars %>%
2  group_by(species, gender) %>%
3  group_vars()
1[1] "species" "gender"

Sau khi group_by ta sử dụng hàm summarise để tính toán tổng hợp, ví dụ ta cần tính chiều cao trung bình của từng nhóm

1starwars %>% 
2  group_by(species) %>% 
3  summarise(avg_height = mean(height, na.rm=T))
1# A tibble: 38 x 2
2   species   avg_height
3
4 1 Aleena           79
5 2 Besalisk        198
6 3 Cerean          198
7 4 Chagrian        196
8 5 Clawdite        168
9 6 Droid           131.
10 7 Dug             112
11 8 Ewok             88
12 9 Geonosian       183
1310 Gungan          209.
14# ... with 28 more rows

Ta cũng có thể kết hợp group_by với mutate để tạo cột mới được tổng hợp theo nhóm. Ví dụ ta tạo cột mới avg_species_height là chiều cao trung bình của từng nhóm. Từ nhiều cao trung bình tính toán được, ta phân từng quan sát vào từng nhóm bằng cách tạo biến mới height_group trong đó:

1starwars %>% 
2  select(name, height, species) %>%    
3  group_by(species) %>% 
4  mutate(
5		avg_species_height=mean(height, na.rm=T),
6		height_group=case_when(
7			height/avg_species_height<=.8  ~ "short",
8			height/avg_species_height>=1.2 ~ "tall", 
9			TRUE  ~ "average")
10	)

Bài viết khác
Trong quá trình phân tích dữ liệu, việc trực quan hóa các dự báo từ mô hình luôn là một thách thức, đặc biệt là khi chúng ta đối mặt với các mô hình có nhiều biến tương tác. Mặc dù visreg hay ggeffects là những công cụ phổ biến, nhưng sự xuất hiện của modelbased trong hệ sinh thái easystats đã mang đến một hướng tiếp cận mới mẻ và mạnh mẽ hơn để xử lý các tương tác phức tạp trong mô hình hồi quy tổng quát. Khởi đầu với hệ sinh thái easystats Gói thư viện modelbased là một thành phần quan trọng của easystats, được thiết kế để đơn giản hóa việc phân tích và trình bày các mô hình thống kê. Để bắt đầu, chúng ta sẽ sử dụng dữ liệu thực tế về độ che phủ của san hô và sự phong phú của các loài cá để minh họa cách gói thư viện này hoạt động.
Trong các bài viết trước, chúng ta đã tìm hiểu cách sử dụng lệnh table thế hệ mới để tạo bảng và các lệnh collect để tùy chỉnh cũng như xuất dữ liệu. Trong bài viết này, tôi sẽ hướng dẫn các bạn cách kết hợp những công cụ này để tạo ra một bảng thống kê mô tả chuyên nghiệp, thường được gọi là Bảng 1 trong các báo cáo khoa học. Mục tiêu của chúng ta là tạo ra một bảng dữ liệu hoàn chỉnh trong tài liệu Microsoft Word với định dạng chuẩn mực. Khởi Tạo Bảng Cơ Bản Đầu tiên, chúng ta sẽ sử dụng bộ dữ liệu NHANES và lệnh table để tạo cấu trúc bảng ban đầu. Tôi sẽ sử dụng tùy chọn nototal để loại bỏ dòng tổng số nhằm giữ cho bảng gọn gàng hơn.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội