KSEB 3기 07.31

참고 자료 2

시계열 데이터 분석에서 "p", "d", "q"는 ARIMA(자동 회귀 이동 평균) 모델의 파라미터를 나타냅니다.

ARIMA 모델은 시계열 데이터의 예측과 분석을 위해 사용되는 통계 모델 중 하나로, 시계열 데이터의 자기회귀(AR), 미분(I), 이동평균(MA) 요소를 조합하여 모델을 구성합니다.

1. "p" (AR: 자동 회귀)

"p"는 자동 회귀 모델의 자기회귀 차수(AR 차수)를 나타냅니다.
자기회귀란 현재 시점의 데이터가 이전 시점의 데이터와 관련이 있는 경우를 의미합니다. "p"는 몇 개의 이전 시점 데이터를 사용할 것인지를 결정합니다. 예를 들어, "p=1"은 바로 직전 시점의 데이터만 사용하는 자기회귀 모델을 의미하고, "p=2"는 두 시점 이전까지의 데이터를 사용하는 자기회귀 모델을 나타냅니다.

2. "d" (I: 누적)

"d"는 차분 차수를 나타냅니다.
차분은 시계열 데이터의 추세를 제거하기 위해 데이터 간의 차분을 계산하는 과정을 나타냅니다. "d"는 몇 번의 차분을 적용할 것인지를 결정합니다. 일반적으로, 시계열 데이터가 안정적인 상태에 도달할 때까지 차분을 적용합니다.

1차 차분: $\Delta y_t = y_t - y_{t-1}$

2차 차분: $\Delta^2 y_t = \Delta y_t - \Delta y_{t-1} = (y_t - y_{t-1}) - (y_{t-1} - y_{t-2}) = y_t - 2y_{t-1} + y_{t-2}$

3. "q" (MA: 이동 평균)

"q"는 이동평균 모델의 이동평균 차수(MA 차수)를 나타냅니다.
이동평균은 현재 시점의 데이터가 과거 시점의 랜덤한 오차 항에 의해 영향을 받는 경우를 나타냅니다. "q"는 몇 개의 이전 시점의 오차 항을 고려할 것인지를 결정합니다.

XGBoost와 LSTM의 경우, 정확도가 절반 정도 진행했을 때에 이미 50%를 넘기 어려운 지자체들이 많아서 아예 모델 훈련을 중지하고 (S)ARIMA로 진행하도록 했습니다.