Data Analytics/MachineLearning

[ML] 시계열(Timeseries)이란? / AR , MA, ARIMA 알아보기

Istj_eff 2022. 11. 7. 19:39

👩🏻‍💻 1. 시계열

시계열 정보 = 규칙적인 패턴 + 불규칙적인 패턴(white noise)
  • 규칙적인 패턴
    • 자기상관성 : 이전의 결과와 이후의 결과 사이에서 발생
    • 이동평균 : 이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래
  • 불규칙적인 패턴(white noise) : 평균이 0이며 일정한 분산을 지닌 정규분포에서 추출된 임의의 수
    • 대표적인 모델 : AR, MA, ARMA, ARIMA

 

 

1-1. 정상 프로세스(Stationary Process) : 시간에 관계없이 평균과 분산이 일정한 시계열 데이터

1-2. 비정상 프로세스(Non-Stationary Process) : 시간에 관계없이 평균과 분산이 일정하지 않은 시계열 데이터

정상 프로세스
비정상 프로세스

💡 어떻게 정상과 비정상 프로세스를 비교하지? X축을 Lag (현재 데이터와의 시점 차이)로,
      Y축을 ACF(Autocorrelation Function)으로 시각화 하였을 때 특정 패턴이 없으면 정상 프로세스로 볼 수 있다.
  • AC(Autocorrelation)자기상관 ?
    Correlation은 두 변수 사이의 관계를 -1 ~ 1의 값으로 표현하는 척도이다. Autocorrealation은 Correlation에 Auto라는 개념이 추가된 것으로, 쉽게 설명하자면 시계열적 관점으로 보았을 때 time shifted된 자기 자신과의 correlation을 의미

 


👩🏻‍💻 2. 시계열 모형

1. 자기회귀모형(AR, AutoRegressive)

자신의 과거 값을 사용하는 모형. 현재 시계열 자료의 몇번째 전 자료까지 영향을 주는가를 구하는 것이 목적
→ 현시점의 시계열 자료에 과거 1시점 이전 자료만 영향을 준다면 1차 자기회귀모형, AR(1)

→ 과거 데이터에 기반한 변동을 파악하기는 쉽지만 train set밖에서 데이터가 요동친다면 적합하지 않은 방식이다.

 

 

2. 이동평균모형 (MA, Moving Average)

최근 데이터의 평균이나 중앙치를 예측치로 사용하는 방법으로 각 과거치에는 동일한 가중치가 주어진다.

  • MA 정의 상 평균과 분산이 일정하므로 MA는 항상 정상성을 만족한다.
  • 자기회귀모형과 반대로 자기상관함수 p + 1 시차 이후 절단된 형태를 취한다.
  • 여러 관측치의 평균을 이용하기에 지엽적인 변동을 제거하여 장기적인 추세를 쉽게 파악할 수 있도록 해주는 장점이 있으며, 시계열이 생성되는 시스템에 변화가 있을 경우 이 변화에 쉽게 대처할 수 있다.

 

3. 자기회귀누적 이동 모형 (ARIMA)

대부분의 많은 시계열 자료가 따르는 모형으로 기본 비정상시계열이며 차분이나 변환으로 AR, MR, ARMA 모형으로 정상화할 수 있다.

  • 차수 p, d, q 값에 따라 모형의 이름이 바뀜
  • 차수 p는 AR과 관련, q는 MA와 관련, d는 ARIMA에서 ARMA로 정상화할 때 몇 번 차분했는지를 물음


👩🏻‍💻 3. 분해 시계열

  1. 시계열 데이터 목적 : 미래 값 예측(ex.향후 일주일간 주가 예측), 특성 파악(ex.경향, 주기, 계절성, 불규칙성 등)
  2. 분해시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
    • 추세 요인 : 자료가 어떤 특정한 형태를 취하는 것
    • 계절 요인 : 계절에 따라 고정된 주기를 따라 자료가 변환할 경우
    • 순환 요인 : 알려지지 않은 주기를 가지고 자료가 변환할 경우
    • 불규칙 요인 : 위 세가지 요인으로 설명할 수 없는 오차에 해당하는 경우

 


👩🏻‍💻 4. ACF, PACF

4-1. 자기상관함수 ACF

: 시계열 데이터의 자기상관성을 파악하기 위한 함수

  • 시계열의 관측치 Yt 와 Yt-k간 상관계수를 k의 함수 형태로 표시한 것, (k:시간단위)
  • 1 ≤ autocorr(Yt, Yt-k) ≤ 1, k가 커질수록 ACF는 0으로 수렴함

 

4-2. 부분자기상관함수 PACF 

: Yt 와 Yt-k 중간에 있는 값들의 영향을 제외시킨 함수

  • Yt 와 Yt-k사이의 직접적 상관관계를 파악하기 위한 함수

  자기회귀 AR 이동평균 MA   ARMA
자기상관함수 ACF 지수적 감소 q+1차항부터 절단모양 q+1차항부터 절단모양
부분자기상관함수 PACF p+1차항부터 절단모양 지수적 감소 p+1차항부터 절단모양

 

4-3. 백색잡음 white noise

  • 시계열 자료중 자기상관이 전혀 없는 특별한 경우
  • 시계열의 평균이 0, 분산이 일정한 값, 자기공분산이 0인 경우
  • 현재값이 미래 예측에 전혀 도움이 되지 못함
  • 회귀분석의 오차항과 비슷한 개념