Trong chuỗi bài này, SciEco cung cấp nội dung về các kiến thức cơ bản, khái niệm cũng như các phương pháp để phân tích và dự báo dữ liệu chuỗi thời gian (time series). Trước hết chúng ta sẽ tìm hiểu các khái niệm cơ bản liên quan đến chuỗi thời gian.
1. Chuỗi thời gian là gì?
Chuỗi thời gian là chuỗi các quan sát được thu thập trên cùng một đối tượng tại các mốc thời gian cách đều nhau. Số liệu chuỗi thời gian cung cấp thông tin về cùng một đối tượng tại các thời điểm khác nhau.
Số liệu chuỗi thời gian được phân biệt theo tần suất xuất hiện: số liệu theo năm, số liệu theo quý, số liệu theo tháng, ...
Ví dụ: trong kinh tế xã hội, các biến số được quan sát dọc theo thời gian như: GDP hàng năm, tỷ lệ thất nghiệp hàng năm, mức lạm phát hàng tháng, chỉ số VN index hàng ngày, giá vàng trên thị trường.
2. Một vài thuật ngữ trong time series
- Stationary: Tính dừng
Một chuỗi thời gian được gọi là dừng khi các giá trị mean, variance, autocorrelation không thay đổi theo thời gian.
Một chuỗi thời gian được gọi là dừng với mọi nếu nó đồng thời thỏa mãn 3 điều kiện sau:
Trong đó:
Trung bình cố định và hữu hạn
Phương sai cố định và hữu hạn
Độc lập với t, chỉ phụ thuộc vào khoảng cách k
Với hầu hết các phương pháp thống kê dự báo, ta đều phải đảm bảo tính dừng của chuỗi dữ liệu vì thế việc kiểm tra tính dừng là rất quan trọng.
- Lag: Biến trễ
Lag-1 của chuỗi thời gian có thể thu được bằng cách dịch chuyển thời gian về quá khứ 1 đơn vị. Tương tự Lag-n thu được bằng cách dịch chuyển n đơn vị thời gian về quá khứ. Ví dụ: Khi ký hiệu chuỗi thời gian là thì ta có lag-n của chuỗi thời gian là: : là giá trị của chậm hơn n thời kỳ.
- Specification: Định dạng mô hình
Là bước kiểm tra mối quan hệ tuyến tính hay phi tuyến của các biến phụ thuộc bằng cách sử dụng các models như ARIMA, ARCH, GARCH, VAR, Co-intergration,...
- Differencing: Sai phân
Sai phân bậc 1 với khoảng interval của 1 chuỗi thời gian được tính bằng công thức:
3. Chuyển đổi số liệu
3.1 Thay đổi tần suất của chuỗi thời gian
Chuyển đổi từ số liệu có tần suất cáo sang số liệu có tần suất thấp (VD: Từ tuần sang tháng, từ tháng sang quý, từ quý sang năm)
Phụ thuộc vào biến số được chuyển đổi là biến điểm (stock) hay biến kỳ (flow)
- Biến điểm (stock): lấy theo giá trị trung bình, giá trị thời điểm đầu, giá trị thời điểm cuối hoặc giá trị thời điểm giữa
- Biến kỳ (flow): cộng dồn giá trị ở các thời điểm ở chuỗi số có tần suất cao sang chuỗi số có tần suất thấp.
3.2. Log hóa số liệu
Thông qua log hóa, chuỗi số liệu trở nên “mượt” hơn, đồng thời tránh được việc che dấu những đặc tính khác của chuỗi số liệu.
Giúp tuyến tính hóa những mối quan hệ phi tuyến
Lấy log hai vế:
, : Phần trăm thay đổi của sản lượng (Y) khi vốn (K) và lao động (L) lần lượt thay đổi 1%.
3.3 Lấy sai phân
Là tính toán sự thay đổi của một biến từ thời kỳ này so với thời kỳ trước
Phương pháp để biến đổi một chuỗi time series thành chuỗi dừng (stationary), để loại bỏ xu hướng (trend), hay sự tự tương quan (auto-correlation).
Sai phân bậc nhất
Sai phân bậc 2
Sai phân theo mùa vụ
Theo tháng:
Theo quý:
Khi lấy sai phân mùa vụ, nếu ở dạng log thì được hiểu là phần trăm thay đổi hay tốc độ tăng trưởng của so với cùng kỳ năm trước.