messenger_logo
Liên hệ qua Messenger
SciEco

Giới thiệu về dữ liệu chuỗi thời gian (Time-series data)

MH
Mỹ Hiền
Ngày viết: 30/06/2023

Trong chuỗi bài này, SciEco cung cấp nội dung về các kiến thức cơ bản, khái niệm cũng như các phương pháp để phân tích và dự báo dữ liệu chuỗi thời gian (time series). Trước hết chúng ta sẽ tìm hiểu các khái niệm cơ bản liên quan đến chuỗi thời gian.

1. Chuỗi thời gian là gì?

Chuỗi thời gian là chuỗi các quan sát được thu thập trên cùng một đối tượng tại các mốc thời gian cách đều nhau. Số liệu chuỗi thời gian cung cấp thông tin về cùng một đối tượng tại các thời điểm khác nhau.

Số liệu chuỗi thời gian được phân biệt theo tần suất xuất hiện: số liệu theo năm, số liệu theo quý, số liệu theo tháng, ...

Ví dụ: trong kinh tế xã hội, các biến số được quan sát dọc theo thời gian như: GDP hàng năm, tỷ lệ thất nghiệp hàng năm, mức lạm phát hàng tháng, chỉ số VN index hàng ngày, giá vàng trên thị trường.

2. Một vài thuật ngữ trong time series

Một chuỗi thời gian được gọi là dừng khi các giá trị mean, variance, autocorrelation không thay đổi theo thời gian.

Một chuỗi thời gian yty_t được gọi là dừng với mọi tt nếu nó đồng thời thỏa mãn 3 điều kiện sau:

{E(yt)=μ<(1)Var(yt)=E[ytμ]2=σ2(2)Cov(yt,y(tk))=E(ytμ)(y(tk)μ)=yk(3)\begin{cases} E(y_t) = \mu < \infty & (1) \\ Var(y_t) = E[y_t - \mu]^2 = \sigma^2 & (2)\\ Cov(y_t, y_{(t-k)}) = E(y_t - \mu)(y_{(t-k)}-\mu) = y_k & (3) \\ \end{cases}

Trong đó:
(1)(1)Trung bình cố định và hữu hạn
(2)(2)Phương sai cố định và hữu hạn
(3)(3)Độc lập với t, chỉ phụ thuộc vào khoảng cách k

Với hầu hết các phương pháp thống kê dự báo, ta đều phải đảm bảo tính dừng của chuỗi dữ liệu vì thế việc kiểm tra tính dừng là rất quan trọng.

Lag-1 của chuỗi thời gian có thể thu được bằng cách dịch chuyển thời gian về quá khứ 1 đơn vị. Tương tự Lag-n thu được bằng cách dịch chuyển n đơn vị thời gian về quá khứ. Ví dụ: Khi ký hiệu chuỗi thời gian là XtX_t thì ta có lag-n của chuỗi thời gian là: X(tn)X_{(t-n)}: là giá trị của XX chậm hơn n thời kỳ.

Là bước kiểm tra mối quan hệ tuyến tính hay phi tuyến của các biến phụ thuộc bằng cách sử dụng các models như ARIMA, ARCH, GARCH, VAR, Co-intergration,...

Sai phân bậc 1 với khoảng interval của 1 chuỗi thời gian XtX_t được tính bằng công thức:

D1=XtX(t1)D_1 = X_t - X_{(t-1)}

3. Chuyển đổi số liệu

3.1 Thay đổi tần suất của chuỗi thời gian

Chuyển đổi từ số liệu có tần suất cáo sang số liệu có tần suất thấp (VD: Từ tuần sang tháng, từ tháng sang quý, từ quý sang năm)

Phụ thuộc vào biến số được chuyển đổi là biến điểm (stock) hay biến kỳ (flow)

3.2. Log hóa số liệu

Thông qua log hóa, chuỗi số liệu trở nên “mượt” hơn, đồng thời tránh được việc che dấu những đặc tính khác của chuỗi số liệu.

Giúp tuyến tính hóa những mối quan hệ phi tuyến

Y=AKtαLtβe(ut)Y=AK_t^α L_t^β e^{(u_t )}

Lấy log hai vế:

{yt=α+αKt+βLt+utα=(log(Yt))/(log(Kt))β=(log(Yt))/(log(Lt))\begin{cases} y_t=α+αK_t+βL_t+u_t \\ α=(∆ log⁡(Y_t ))/(∆log⁡(K_t))\\ β=(∆ log⁡(Y_t ))/(∆log⁡(L_t))\\ \end{cases}

α\alpha, β\beta: Phần trăm thay đổi của sản lượng (Y) khi vốn (K) và lao động (L) lần lượt thay đổi 1%.

3.3 Lấy sai phân

Là tính toán sự thay đổi của một biến từ thời kỳ này so với thời kỳ trước

Phương pháp để biến đổi một chuỗi time series thành chuỗi dừng (stationary), để loại bỏ xu hướng (trend), hay sự tự tương quan (auto-correlation).

Sai phân bậc nhất

yt=yty(t1)∆y_t=y_t-y_{(t-1)}

Sai phân bậc 2

2yt=yty(t1)=(yty(t1))(y(t1)y(t2))∆^2 y_t=∆y_t-∆y_{(t-1)}\\ =(y_t-y_{(t-1)} )-(y_{(t-1)}-y_{(t-2)} )

Sai phân theo mùa vụ

Theo tháng: yt=yty(t12)∆y_t=y_t-y_{(t-12)}

Theo quý: yt=yty(t4) ∆y_t=y_t-y_{(t-4)}

Khi lấy sai phân mùa vụ, nếu yty_t ở dạng log thì yt∆y_t được hiểu là phần trăm thay đổi hay tốc độ tăng trưởng của yty_t so với cùng kỳ năm trước.


Bài viết khác
Trong lĩnh vực sinh thái học định lượng và dịch tễ học phân tử, các nhà khoa học thường sử dụng mô hình thống kê để dự báo sự phân bố loài hoặc mô hình lây truyền bệnh tật. Tuy nhiên, một ứng dụng thú vị khác của mô hình cộng tổng quát, thường được gọi là GAM, chính là dự báo giá trị vòng đời khách hàng trong các doanh nghiệp phần mềm dịch vụ. Việc dự báo CLV đối mặt với những thách thức thống kê tương tự như dự báo sinh thái: các mối quan hệ phi tuyến tính đạt đến giới hạn bão hòa, cấu trúc phân cấp nơi các nhóm khách hàng hành xử khác nhau và nhu cầu cân bằng giữa tính linh hoạt của mô hình với khả năng giải thích cho các bên liên quan. Nhiều doanh nghiệp hiện nay vẫn dựa vào các phương pháp tính toán đơn giản như lấy giá trị đơn hàng trung bình nhân với tần suất và thời gian gắn bó. Cách tiếp cận này bỏ qua quỹ đạo cá nhân và động lực thời gian. Ngược lại, các mô hình học máy dạng hộp đen có thể nắm bắt các quy luật phức tạp nhưng lại thiếu tính diễn giải cần thiết cho các quyết định chiến lược. Mô hình GAM xuất hiện như một giải pháp trung gian hoàn hảo, cho phép nắm bắt các mối quan hệ phi tuyến phức tạp thông qua các hàm mượt có thể trực quan hóa, đồng thời xử lý tốt hiện tượng phương sai thay đổi đặc trưng trong dữ liệu doanh thu. Hiểu về động lực kinh doanh SaaS Các công ty SaaS hoạt động dựa trên doanh thu định kỳ từ đăng ký thuê bao. Khách hàng trả tiền hàng tháng hoặc hàng năm để duy trì quyền truy cập vào phần mềm. Điều này thay đổi hoàn toàn bài toán thống kê. Thách thức lớn nhất là chi phí thu hút khách hàng thường rất lớn so với doanh thu hàng tháng. Một khách hàng trả 99 đô la mỗi tháng nhưng tốn 500 đô la để thu hút sẽ cần ít nhất sáu tháng để doanh nghiệp đạt điểm hòa vốn.
Trong bài viết này, tôi sẽ giới thiệu cho bạn một cách tiếp cận tương đối đơn giản về thống kê Bayes. Phương pháp Bayes ngày càng trở nên phổ biến và bạn có thể thực hiện các mô hình này bằng lệnh bayesmh trong phần mềm Stata. Nội dung hôm nay sẽ tập trung vào các khái niệm, thuật ngữ chuyên môn và cú pháp cơ bản. Trong bài viết tiếp theo, chúng ta sẽ cùng tìm hiểu sâu hơn về mô hình Markov chain Monte Carlo thông qua thuật toán Metropolis-Hastings. Thống kê bayes qua ví dụ thực tế Nhiều người trong chúng ta được đào tạo theo trường phái thống kê tần suất, nơi các tham số được coi là các đại lượng cố định nhưng chưa biết giá trị. Chúng ta ước lượng các tham số này bằng cách lấy mẫu từ quần thể, và các mẫu khác nhau sẽ cho ra các ước lượng khác nhau. Tập hợp các ước lượng này tạo nên phân phối mẫu, giúp định lượng sự không chắc chắn của kết quả. Tuy nhiên, bản thân tham số vẫn luôn được xem là một hằng số cố định. Thống kê Bayes mang đến một tư duy hoàn toàn khác. Ở đây, các tham số được đối xử như các biến ngẫu nhiên và có thể được mô tả bằng các phân phối xác suất. Chúng ta thậm chí không cần dữ liệu để mô tả phân phối của một tham số, bởi xác suất đơn giản là mức độ tin tưởng của chúng ta vào giá trị đó.
SciEco
Science for Economics
Định hướng đào tạo phân tích dữ liệu, xây dựng chính sách, tối ưu hoá danh mục tài chính cá nhân và dự báo thị trường.
Liên hệ
Địa chỉ: Số 60, ngõ 41, Phố Thái Hà, Trung Liệt, Đống Đa, Hà Nội (Google Map)
Email: science.for.economics@gmail.com
Hotline: 03.57.94.7680 (Mrs. Hà)
Mạng xã hội