messenger_logo
Liên hệ qua Messenger
SciEco

Giới thiệu về dữ liệu chuỗi thời gian (Time-series data)

MH
Mỹ Hiền
Ngày viết: 30/06/2023

Trong chuỗi bài này, SciEco cung cấp nội dung về các kiến thức cơ bản, khái niệm cũng như các phương pháp để phân tích và dự báo dữ liệu chuỗi thời gian (time series). Trước hết chúng ta sẽ tìm hiểu các khái niệm cơ bản liên quan đến chuỗi thời gian.

1. Chuỗi thời gian là gì?

Chuỗi thời gian là chuỗi các quan sát được thu thập trên cùng một đối tượng tại các mốc thời gian cách đều nhau. Số liệu chuỗi thời gian cung cấp thông tin về cùng một đối tượng tại các thời điểm khác nhau.

Số liệu chuỗi thời gian được phân biệt theo tần suất xuất hiện: số liệu theo năm, số liệu theo quý, số liệu theo tháng, ...

Ví dụ: trong kinh tế xã hội, các biến số được quan sát dọc theo thời gian như: GDP hàng năm, tỷ lệ thất nghiệp hàng năm, mức lạm phát hàng tháng, chỉ số VN index hàng ngày, giá vàng trên thị trường.

2. Một vài thuật ngữ trong time series

Một chuỗi thời gian được gọi là dừng khi các giá trị mean, variance, autocorrelation không thay đổi theo thời gian.

Một chuỗi thời gian yty_t được gọi là dừng với mọi tt nếu nó đồng thời thỏa mãn 3 điều kiện sau:

{E(yt)=μ<(1)Var(yt)=E[ytμ]2=σ2(2)Cov(yt,y(tk))=E(ytμ)(y(tk)μ)=yk(3)\begin{cases} E(y_t) = \mu < \infty & (1) \\ Var(y_t) = E[y_t - \mu]^2 = \sigma^2 & (2)\\ Cov(y_t, y_{(t-k)}) = E(y_t - \mu)(y_{(t-k)}-\mu) = y_k & (3) \\ \end{cases}

Trong đó:
(1)(1)Trung bình cố định và hữu hạn
(2)(2)Phương sai cố định và hữu hạn
(3)(3)Độc lập với t, chỉ phụ thuộc vào khoảng cách k

Với hầu hết các phương pháp thống kê dự báo, ta đều phải đảm bảo tính dừng của chuỗi dữ liệu vì thế việc kiểm tra tính dừng là rất quan trọng.

Lag-1 của chuỗi thời gian có thể thu được bằng cách dịch chuyển thời gian về quá khứ 1 đơn vị. Tương tự Lag-n thu được bằng cách dịch chuyển n đơn vị thời gian về quá khứ. Ví dụ: Khi ký hiệu chuỗi thời gian là XtX_t thì ta có lag-n của chuỗi thời gian là: X(tn)X_{(t-n)}: là giá trị của XX chậm hơn n thời kỳ.

Là bước kiểm tra mối quan hệ tuyến tính hay phi tuyến của các biến phụ thuộc bằng cách sử dụng các models như ARIMA, ARCH, GARCH, VAR, Co-intergration,...

Sai phân bậc 1 với khoảng interval của 1 chuỗi thời gian XtX_t được tính bằng công thức:

D1=XtX(t1)D_1 = X_t - X_{(t-1)}

3. Chuyển đổi số liệu

3.1 Thay đổi tần suất của chuỗi thời gian

Chuyển đổi từ số liệu có tần suất cáo sang số liệu có tần suất thấp (VD: Từ tuần sang tháng, từ tháng sang quý, từ quý sang năm)

Phụ thuộc vào biến số được chuyển đổi là biến điểm (stock) hay biến kỳ (flow)

3.2. Log hóa số liệu

Thông qua log hóa, chuỗi số liệu trở nên “mượt” hơn, đồng thời tránh được việc che dấu những đặc tính khác của chuỗi số liệu.

Giúp tuyến tính hóa những mối quan hệ phi tuyến

Y=AKtαLtβe(ut)Y=AK_t^α L_t^β e^{(u_t )}

Lấy log hai vế:

{yt=α+αKt+βLt+utα=(log(Yt))/(log(Kt))β=(log(Yt))/(log(Lt))\begin{cases} y_t=α+αK_t+βL_t+u_t \\ α=(∆ log⁡(Y_t ))/(∆log⁡(K_t))\\ β=(∆ log⁡(Y_t ))/(∆log⁡(L_t))\\ \end{cases}

α\alpha, β\beta: Phần trăm thay đổi của sản lượng (Y) khi vốn (K) và lao động (L) lần lượt thay đổi 1%.

3.3 Lấy sai phân

Là tính toán sự thay đổi của một biến từ thời kỳ này so với thời kỳ trước

Phương pháp để biến đổi một chuỗi time series thành chuỗi dừng (stationary), để loại bỏ xu hướng (trend), hay sự tự tương quan (auto-correlation).

Sai phân bậc nhất

yt=yty(t1)∆y_t=y_t-y_{(t-1)}

Sai phân bậc 2

2yt=yty(t1)=(yty(t1))(y(t1)y(t2))∆^2 y_t=∆y_t-∆y_{(t-1)}\\ =(y_t-y_{(t-1)} )-(y_{(t-1)}-y_{(t-2)} )

Sai phân theo mùa vụ

Theo tháng: yt=yty(t12)∆y_t=y_t-y_{(t-12)}

Theo quý: yt=yty(t4) ∆y_t=y_t-y_{(t-4)}

Khi lấy sai phân mùa vụ, nếu yty_t ở dạng log thì yt∆y_t được hiểu là phần trăm thay đổi hay tốc độ tăng trưởng của yty_t so với cùng kỳ năm trước.


Bài viết khác
Trong quá trình phân tích dữ liệu, việc trực quan hóa các dự báo từ mô hình luôn là một thách thức, đặc biệt là khi chúng ta đối mặt với các mô hình có nhiều biến tương tác. Mặc dù visreg hay ggeffects là những công cụ phổ biến, nhưng sự xuất hiện của modelbased trong hệ sinh thái easystats đã mang đến một hướng tiếp cận mới mẻ và mạnh mẽ hơn để xử lý các tương tác phức tạp trong mô hình hồi quy tổng quát. Khởi đầu với hệ sinh thái easystats Gói thư viện modelbased là một thành phần quan trọng của easystats, được thiết kế để đơn giản hóa việc phân tích và trình bày các mô hình thống kê. Để bắt đầu, chúng ta sẽ sử dụng dữ liệu thực tế về độ che phủ của san hô và sự phong phú của các loài cá để minh họa cách gói thư viện này hoạt động.
Trong các bài viết trước, chúng ta đã tìm hiểu cách sử dụng lệnh table thế hệ mới để tạo bảng và các lệnh collect để tùy chỉnh cũng như xuất dữ liệu. Trong bài viết này, tôi sẽ hướng dẫn các bạn cách kết hợp những công cụ này để tạo ra một bảng thống kê mô tả chuyên nghiệp, thường được gọi là Bảng 1 trong các báo cáo khoa học. Mục tiêu của chúng ta là tạo ra một bảng dữ liệu hoàn chỉnh trong tài liệu Microsoft Word với định dạng chuẩn mực. Khởi Tạo Bảng Cơ Bản Đầu tiên, chúng ta sẽ sử dụng bộ dữ liệu NHANES và lệnh table để tạo cấu trúc bảng ban đầu. Tôi sẽ sử dụng tùy chọn nototal để loại bỏ dòng tổng số nhằm giữ cho bảng gọn gàng hơn.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội