messenger_logo
Liên hệ qua Messenger
SciEco

Giới thiệu về dữ liệu chuỗi thời gian (Time-series data)

MH
Mỹ Hiền
Ngày viết: 30/06/2023

Trong chuỗi bài này, SciEco cung cấp nội dung về các kiến thức cơ bản, khái niệm cũng như các phương pháp để phân tích và dự báo dữ liệu chuỗi thời gian (time series). Trước hết chúng ta sẽ tìm hiểu các khái niệm cơ bản liên quan đến chuỗi thời gian.

1. Chuỗi thời gian là gì?

Chuỗi thời gian là chuỗi các quan sát được thu thập trên cùng một đối tượng tại các mốc thời gian cách đều nhau. Số liệu chuỗi thời gian cung cấp thông tin về cùng một đối tượng tại các thời điểm khác nhau.

Số liệu chuỗi thời gian được phân biệt theo tần suất xuất hiện: số liệu theo năm, số liệu theo quý, số liệu theo tháng, ...

Ví dụ: trong kinh tế xã hội, các biến số được quan sát dọc theo thời gian như: GDP hàng năm, tỷ lệ thất nghiệp hàng năm, mức lạm phát hàng tháng, chỉ số VN index hàng ngày, giá vàng trên thị trường.

2. Một vài thuật ngữ trong time series

Một chuỗi thời gian được gọi là dừng khi các giá trị mean, variance, autocorrelation không thay đổi theo thời gian.

Một chuỗi thời gian yty_t được gọi là dừng với mọi tt nếu nó đồng thời thỏa mãn 3 điều kiện sau:

{E(yt)=μ<(1)Var(yt)=E[ytμ]2=σ2(2)Cov(yt,y(tk))=E(ytμ)(y(tk)μ)=yk(3)\begin{cases} E(y_t) = \mu < \infty & (1) \\ Var(y_t) = E[y_t - \mu]^2 = \sigma^2 & (2)\\ Cov(y_t, y_{(t-k)}) = E(y_t - \mu)(y_{(t-k)}-\mu) = y_k & (3) \\ \end{cases}

Trong đó:
(1)(1)Trung bình cố định và hữu hạn
(2)(2)Phương sai cố định và hữu hạn
(3)(3)Độc lập với t, chỉ phụ thuộc vào khoảng cách k

Với hầu hết các phương pháp thống kê dự báo, ta đều phải đảm bảo tính dừng của chuỗi dữ liệu vì thế việc kiểm tra tính dừng là rất quan trọng.

Lag-1 của chuỗi thời gian có thể thu được bằng cách dịch chuyển thời gian về quá khứ 1 đơn vị. Tương tự Lag-n thu được bằng cách dịch chuyển n đơn vị thời gian về quá khứ. Ví dụ: Khi ký hiệu chuỗi thời gian là XtX_t thì ta có lag-n của chuỗi thời gian là: X(tn)X_{(t-n)}: là giá trị của XX chậm hơn n thời kỳ.

Là bước kiểm tra mối quan hệ tuyến tính hay phi tuyến của các biến phụ thuộc bằng cách sử dụng các models như ARIMA, ARCH, GARCH, VAR, Co-intergration,...

Sai phân bậc 1 với khoảng interval của 1 chuỗi thời gian XtX_t được tính bằng công thức:

D1=XtX(t1)D_1 = X_t - X_{(t-1)}

3. Chuyển đổi số liệu

3.1 Thay đổi tần suất của chuỗi thời gian

Chuyển đổi từ số liệu có tần suất cáo sang số liệu có tần suất thấp (VD: Từ tuần sang tháng, từ tháng sang quý, từ quý sang năm)

Phụ thuộc vào biến số được chuyển đổi là biến điểm (stock) hay biến kỳ (flow)

3.2. Log hóa số liệu

Thông qua log hóa, chuỗi số liệu trở nên “mượt” hơn, đồng thời tránh được việc che dấu những đặc tính khác của chuỗi số liệu.

Giúp tuyến tính hóa những mối quan hệ phi tuyến

Y=AKtαLtβe(ut)Y=AK_t^α L_t^β e^{(u_t )}

Lấy log hai vế:

{yt=α+αKt+βLt+utα=(log(Yt))/(log(Kt))β=(log(Yt))/(log(Lt))\begin{cases} y_t=α+αK_t+βL_t+u_t \\ α=(∆ log⁡(Y_t ))/(∆log⁡(K_t))\\ β=(∆ log⁡(Y_t ))/(∆log⁡(L_t))\\ \end{cases}

α\alpha, β\beta: Phần trăm thay đổi của sản lượng (Y) khi vốn (K) và lao động (L) lần lượt thay đổi 1%.

3.3 Lấy sai phân

Là tính toán sự thay đổi của một biến từ thời kỳ này so với thời kỳ trước

Phương pháp để biến đổi một chuỗi time series thành chuỗi dừng (stationary), để loại bỏ xu hướng (trend), hay sự tự tương quan (auto-correlation).

Sai phân bậc nhất

yt=yty(t1)∆y_t=y_t-y_{(t-1)}

Sai phân bậc 2

2yt=yty(t1)=(yty(t1))(y(t1)y(t2))∆^2 y_t=∆y_t-∆y_{(t-1)}\\ =(y_t-y_{(t-1)} )-(y_{(t-1)}-y_{(t-2)} )

Sai phân theo mùa vụ

Theo tháng: yt=yty(t12)∆y_t=y_t-y_{(t-12)}

Theo quý: yt=yty(t4) ∆y_t=y_t-y_{(t-4)}

Khi lấy sai phân mùa vụ, nếu yty_t ở dạng log thì yt∆y_t được hiểu là phần trăm thay đổi hay tốc độ tăng trưởng của yty_t so với cùng kỳ năm trước.


Bài viết khác
1. Giới thiệu Phân cụm đồ thị (K-means Clustering) là quá trình phân chia hoặc tách biệt dữ liệu theo các nhóm dựa trên các đặc điểm chung sau đó được biểu thị qua một đồ thị. Phù hợp với những công việc cần phân khúc các tệp khách hàng trong thương mại, phân tích thị trường. Điều này giúp các công ty hiểu rõ hơn về sở thích và nhu cầu của từng nhóm, qua đó đưa ra chiến lược marketing phù hợp. Trong thuật toán phân cụm, K-means là một thuật toán phân cụm đơn giản và phổ biến trong học máy (machine learning) để phân cụm các điểm dữ liệu thành các nhóm riêng biệt dựa trên các đặc điểm của chúng. Thuật toán này dùng để chia dữ liệu thành các nhóm dựa trên khoảng cách giữa các điểm dữ liệu với nhau. 2. Ta cài đặt những thư viện sau
Trong thời đại của số hóa và khoa học dữ liệu lên ngôi, khả năng phân tích, giải mã và trích xuất thông tin hữu ích từ khối lượng dữ liệu khổng lồ là một kỹ năng không thể thiếu để giúp bạn thích nghi với yêu cầu của công việc! Đặc biệt, với việc làm chủ STATA, phần mềm phân tích dữ liệu có giao diện thân thiện và khả năng xử lý dữ liệu mạnh mẽ sẽ là công cụ đắc lực cho bạn. Để có thể giúp bạn chinh phục STATA, SciEco ở đây để mang đến cho bạn khóa học STATA đầy hấp dẫn: Nội dung khóa học chi tiết: Bài 1: Giới thiệu về STATA và VES
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội