Giới thiệu về dữ liệu chuỗi thời gian (Time-series data)

Trong chuỗi bài này, SciEco cung cấp nội dung về các kiến thức cơ bản, khái niệm cũng như các phương pháp để phân tích và dự báo dữ liệu chuỗi thời gian (time series). Trước hết chúng ta sẽ tìm hiểu các khái niệm cơ bản liên quan đến chuỗi thời gian.

1. Chuỗi thời gian là gì?

Chuỗi thời gian là chuỗi các quan sát được thu thập trên cùng một đối tượng tại các mốc thời gian cách đều nhau. Số liệu chuỗi thời gian cung cấp thông tin về cùng một đối tượng tại các thời điểm khác nhau.

Số liệu chuỗi thời gian được phân biệt theo tần suất xuất hiện: số liệu theo năm, số liệu theo quý, số liệu theo tháng, ...

Ví dụ: trong kinh tế xã hội, các biến số được quan sát dọc theo thời gian như: GDP hàng năm, tỷ lệ thất nghiệp hàng năm, mức lạm phát hàng tháng, chỉ số VN index hàng ngày, giá vàng trên thị trường.

2. Một vài thuật ngữ trong time series

Stationary: Tính dừng

Một chuỗi thời gian được gọi là dừng khi các giá trị mean, variance, autocorrelation không thay đổi theo thời gian.

Một chuỗi thời gian $y_t$ được gọi là dừng với mọi $t$ nếu nó đồng thời thỏa mãn 3 điều kiện sau:

\begin{cases} E(y_t) = \mu < \infty & (1) \\ Var(y_t) = E[y_t - \mu]^2 = \sigma^2 & (2)\\ Cov(y_t, y_{(t-k)}) = E(y_t - \mu)(y_{(t-k)}-\mu) = y_k & (3) \\ \end{cases}

Trong đó:
$(1)$ Trung bình cố định và hữu hạn
$(2)$ Phương sai cố định và hữu hạn
$(3)$ Độc lập với t, chỉ phụ thuộc vào khoảng cách k

Với hầu hết các phương pháp thống kê dự báo, ta đều phải đảm bảo tính dừng của chuỗi dữ liệu vì thế việc kiểm tra tính dừng là rất quan trọng.

Lag: Biến trễ

Lag-1 của chuỗi thời gian có thể thu được bằng cách dịch chuyển thời gian về quá khứ 1 đơn vị. Tương tự Lag-n thu được bằng cách dịch chuyển n đơn vị thời gian về quá khứ. Ví dụ: Khi ký hiệu chuỗi thời gian là $X_t$ thì ta có lag-n của chuỗi thời gian là: $X_{(t-n)}$ : là giá trị của $X$ chậm hơn n thời kỳ.

Specification: Định dạng mô hình

Là bước kiểm tra mối quan hệ tuyến tính hay phi tuyến của các biến phụ thuộc bằng cách sử dụng các models như ARIMA, ARCH, GARCH, VAR, Co-intergration,...

Differencing: Sai phân

Sai phân bậc 1 với khoảng interval của 1 chuỗi thời gian $X_t$ được tính bằng công thức:

D_1 = X_t - X_{(t-1)}

3. Chuyển đổi số liệu

3.1 Thay đổi tần suất của chuỗi thời gian

Chuyển đổi từ số liệu có tần suất cáo sang số liệu có tần suất thấp (VD: Từ tuần sang tháng, từ tháng sang quý, từ quý sang năm)

Phụ thuộc vào biến số được chuyển đổi là biến điểm (stock) hay biến kỳ (flow)

Biến điểm (stock): lấy theo giá trị trung bình, giá trị thời điểm đầu, giá trị thời điểm cuối hoặc giá trị thời điểm giữa
Biến kỳ (flow): cộng dồn giá trị ở các thời điểm ở chuỗi số có tần suất cao sang chuỗi số có tần suất thấp.

3.2. Log hóa số liệu

Thông qua log hóa, chuỗi số liệu trở nên “mượt” hơn, đồng thời tránh được việc che dấu những đặc tính khác của chuỗi số liệu.

Giúp tuyến tính hóa những mối quan hệ phi tuyến

Y=AK_t^α L_t^β e^{(u_t )}

Lấy log hai vế:

\begin{cases} y_t=α+αK_t+βL_t+u_t \\ α=(∆ log⁡(Y_t ))/(∆log⁡(K_t))\\ β=(∆ log⁡(Y_t ))/(∆log⁡(L_t))\\ \end{cases}

$\alpha$ , $\beta$ : Phần trăm thay đổi của sản lượng (Y) khi vốn (K) và lao động (L) lần lượt thay đổi 1%.

3.3 Lấy sai phân

Là tính toán sự thay đổi của một biến từ thời kỳ này so với thời kỳ trước

Phương pháp để biến đổi một chuỗi time series thành chuỗi dừng (stationary), để loại bỏ xu hướng (trend), hay sự tự tương quan (auto-correlation).

Sai phân bậc nhất

∆y_t=y_t-y_{(t-1)}

Sai phân bậc 2

∆^2 y_t=∆y_t-∆y_{(t-1)}\\ =(y_t-y_{(t-1)} )-(y_{(t-1)}-y_{(t-2)} )

Sai phân theo mùa vụ

Theo tháng: $∆y_t=y_t-y_{(t-12)}$

Theo quý: $∆y_t=y_t-y_{(t-4)}$

Khi lấy sai phân mùa vụ, nếu $y_t$ ở dạng log thì $∆y_t$ được hiểu là phần trăm thay đổi hay tốc độ tăng trưởng của $y_t$ so với cùng kỳ năm trước.