Data Analytics/MachineLearning
[ML] 시계열(Timeseries)이란? / AR , MA, ARIMA 알아보기
Istj_eff
2022. 11. 7. 19:39
👩🏻💻 1. 시계열
시계열 정보 = 규칙적인 패턴 + 불규칙적인 패턴(white noise)
- 규칙적인 패턴
- 자기상관성 : 이전의 결과와 이후의 결과 사이에서 발생
- 이동평균 : 이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래
- 불규칙적인 패턴(white noise) : 평균이 0이며 일정한 분산을 지닌 정규분포에서 추출된 임의의 수
- 대표적인 모델 : AR, MA, ARMA, ARIMA
1-1. 정상 프로세스(Stationary Process) : 시간에 관계없이 평균과 분산이 일정한 시계열 데이터
1-2. 비정상 프로세스(Non-Stationary Process) : 시간에 관계없이 평균과 분산이 일정하지 않은 시계열 데이터
💡 어떻게 정상과 비정상 프로세스를 비교하지? X축을 Lag (현재 데이터와의 시점 차이)로,
Y축을 ACF(Autocorrelation Function)으로 시각화 하였을 때 특정 패턴이 없으면 정상 프로세스로 볼 수 있다.
- AC(Autocorrelation)자기상관 ?
Correlation은 두 변수 사이의 관계를 -1 ~ 1의 값으로 표현하는 척도이다. Autocorrealation은 Correlation에 Auto라는 개념이 추가된 것으로, 쉽게 설명하자면 시계열적 관점으로 보았을 때 time shifted된 자기 자신과의 correlation을 의미
👩🏻💻 2. 시계열 모형
1. 자기회귀모형(AR, AutoRegressive)
자신의 과거 값을 사용하는 모형. 현재 시계열 자료의 몇번째 전 자료까지 영향을 주는가를 구하는 것이 목적
→ 현시점의 시계열 자료에 과거 1시점 이전 자료만 영향을 준다면 1차 자기회귀모형, AR(1)
→ 과거 데이터에 기반한 변동을 파악하기는 쉽지만 train set밖에서 데이터가 요동친다면 적합하지 않은 방식이다.
2. 이동평균모형 (MA, Moving Average)
최근 데이터의 평균이나 중앙치를 예측치로 사용하는 방법으로 각 과거치에는 동일한 가중치가 주어진다.
- MA 정의 상 평균과 분산이 일정하므로 MA는 항상 정상성을 만족한다.
- 자기회귀모형과 반대로 자기상관함수 p + 1 시차 이후 절단된 형태를 취한다.
- 여러 관측치의 평균을 이용하기에 지엽적인 변동을 제거하여 장기적인 추세를 쉽게 파악할 수 있도록 해주는 장점이 있으며, 시계열이 생성되는 시스템에 변화가 있을 경우 이 변화에 쉽게 대처할 수 있다.
3. 자기회귀누적 이동 모형 (ARIMA)
대부분의 많은 시계열 자료가 따르는 모형으로 기본 비정상시계열이며 차분이나 변환으로 AR, MR, ARMA 모형으로 정상화할 수 있다.
- 차수 p, d, q 값에 따라 모형의 이름이 바뀜
- 차수 p는 AR과 관련, q는 MA와 관련, d는 ARIMA에서 ARMA로 정상화할 때 몇 번 차분했는지를 물음
👩🏻💻 3. 분해 시계열
- 시계열 데이터 목적 : 미래 값 예측(ex.향후 일주일간 주가 예측), 특성 파악(ex.경향, 주기, 계절성, 불규칙성 등)
- 분해시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 추세 요인 : 자료가 어떤 특정한 형태를 취하는 것
- 계절 요인 : 계절에 따라 고정된 주기를 따라 자료가 변환할 경우
- 순환 요인 : 알려지지 않은 주기를 가지고 자료가 변환할 경우
- 불규칙 요인 : 위 세가지 요인으로 설명할 수 없는 오차에 해당하는 경우
👩🏻💻 4. ACF, PACF
4-1. 자기상관함수 ACF
: 시계열 데이터의 자기상관성을 파악하기 위한 함수
- 시계열의 관측치 Yt 와 Yt-k간 상관계수를 k의 함수 형태로 표시한 것, (k:시간단위)
- 1 ≤ autocorr(Yt, Yt-k) ≤ 1, k가 커질수록 ACF는 0으로 수렴함
4-2. 부분자기상관함수 PACF
: Yt 와 Yt-k 중간에 있는 값들의 영향을 제외시킨 함수
- Yt 와 Yt-k사이의 직접적 상관관계를 파악하기 위한 함수
자기회귀 AR | 이동평균 MA | ARMA | |
자기상관함수 ACF | 지수적 감소 | q+1차항부터 절단모양 | q+1차항부터 절단모양 |
부분자기상관함수 PACF | p+1차항부터 절단모양 | 지수적 감소 | p+1차항부터 절단모양 |
4-3. 백색잡음 white noise
- 시계열 자료중 자기상관이 전혀 없는 특별한 경우
- 시계열의 평균이 0, 분산이 일정한 값, 자기공분산이 0인 경우
- 현재값이 미래 예측에 전혀 도움이 되지 못함
- 회귀분석의 오차항과 비슷한 개념