Certificate/ADSP

[ADSP] 3과목 - 4장.통계분석, 기초통계분석, 회귀분석

Istj_eff 2022. 10. 9. 23:51

1절. 통계분석

통계분석

통계 : 특정대상을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다.

  1. 기술통계(descriptive statistic)
    • 주어진 자료의 파단이나 예측같은 주관이 섞일수 있는 과정을 배재하여 통계집단의 여러 특성을 수화하여 객관적인 데이터로 나타내는 통계 분석 방법론
    • 평균, 표준편차, 중위수, 최빈값, 그래프 등 구하는것
  2. 통계적 추론 (추측통계, inference statistics)
    • 수집된 자료를 이용해 대상집단(모집단)에 대한 의사결정을 하는 것으로 sample을 통해 모집단을 추정하는것
    • 모수추정, 가설점정, 예측 ★☆

표본조사 

대부분의 설문조사는 표본조사로 진행되고 모집단에서 샘플을 추출하여 진행하는 조사

 

(1) 표본 오차 SE(sampling error) : 평균들의 표준 편차

  • 모집단을 대표하는 표본 단위들이 조사 대상으로 추출되지 못함으로써 발생하는 오차

 

(2) 비표본 오차(non-sampling error)

  • 표본오차를 제외한 모든 오차. 조사과정에서 발생하는 모든 부주의, 알 수 없는 원인 등
  • 조사대상이 증가하면 오차가 커진다.
  • 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본오차가 발생할 수 있다.

 

(3) 표본편의(sampling bias) 

  • 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차
  • 표본 편의는 확률화(randomization)에 의해 최소화하거나 없앨 수 있다. ★

   √ 확률화(randomization): 모집단으로부터 편의되지 않은 표본을 추출하는 절차

   √ 확률표본(random sample): 확률화 절차에 의해 추출된 표본  

 

(4) 표본조사에서 유의해야할 점 : 응답오차, 유도질문  

 

 

2-1. 표본추출의 방법 ★★

(1) 단순 랜덤 추출법

  • 각 샘플에 번호 부여 후 임의의 n개를 추출 ★
  • 모집단의 각 샘플은 선택될 확률이 동일하다.

(2) 계통 추출법 ★

  1. 번호를 부여한 샘플을 나열
  2. k개씩 n개의 구간으로 나눈다
  3. 첫 구간에서 하나를 임의로 선택한 후 매번 k번개씩 띄어서 n개의 표본을 선택 ★

(3) 집락(군집) 추출법 (cluster random sampling)

  • 모집단을 차이가 없는 여러개의 집단으로 나누고. 일부 집단을 랜덤으로 선택 후 각 집단에서 표본을 임의 선택 ★

(4) 층화 추출법 ★★ (stratified random sampling)

  1. 성격에 따라 서로 유사한 것끼리 몇 개의 집단 또는 층(strata)으로 나눈다. 
  2. 각 집단 내에서 원하는 크기의 표본을 랜덤하게 추출
  • 실험으로도 자료수집 가능 (실험 대상에 처리를 하고 결과를 관측해 자료 수집)
  • 표본조사는 대상 집단의 일부 추출 → 현상 관측 또는 조사

측정

1. 질적 자료 (qualitative data)

(1) 명목척도 : 특성을 분류하거나 확인하기위해 사용, 어느 집단에 속할지 분류시 사용

      예) 성별, 출생지, 혈액형 ★

(2) 서열척도(순서척도)

  • 순위만 제공할뿐 비교는 할 수 없음 
  • 서열척도는 명목척도와 달리 숫자의 크기를 의미있게 활용가능
  • 예) 선호도(Good/Medium/Bad) 등

 

2. 양적 자료(quantitative data) : 연속형 자료를 나타내는 척도

(1) 구간척도(등간척도)

  • 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능
  • 속성의 을 측정, 비율은 별 의미 없음. 더하기,빼기 가능 (곱하기,나누기 불가능!!)
  • 절대적인 0점 존재하지 않음  
  • ) 온도, 물가지수 등

(2) 비율척도

  • 절대적 기준인 0값 존재, 사칙연산 가능 ★
  • 예) 무게, 나이, 연간소득, 직장까지 거리 등

확률

표본공간(sample space) : 어떤 실험을 실시할 때 나타날 수 잇는 모든 결과들의 집합

사건 : 관찰자가 관심이 있는 사건으로 표본공간의 부분집합

원소 : 나타날 수 있는 개별의 결과들을 의미

 

확률변수(random variable)

  • 특정값이 나타날 가능성이 확률적으로 주어지는 변수
  • 정의역(domain)이 표본공간, 치역(range)이 실수값(0<y<1)인 함수이다.

조건부 확률

  • 사건B가 발생했다는 조건아래 사건A가 발생할 확률 P(A|B)=P(AB)/P(B)  (조건 P(B) > 0)
  • 독립사건 : 사건A와 사건B는 서로 무관함 P(AB)=P(A)*P(B), P(B|A) = P(B), P(B|A)=P(A)
  • 배반사건: 교집합이 공집합(0임), P(AB) = 0,  그러니까  P(AUB)=P(A)+P(B)

확률분포

1. 이산형 확률 변수

  • 0이 아닌 확률값을 갖는 확률 변수를 셀수 있는 경우
  • 확률 크기를 표현하는 함수 = 확률 질량 함수
  • 기댓값 E(X)=∑x*f(x)
  베르누이 확률분포 ★  - 결과가 2개만 나오는 경우  (ex. 동전 던지기합격/불합격)
 - 모수가 하나이며 반복되는 사건이 일어나는 실험의 반복적 실행을 확률분포로 나타낸것
 이항분포  베르누이 시행을 n번 반복했을때 k번 성공할 확률
 기하분포  성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
 포하송분포  시간과 공간내에서 발생하는 사건의 발생횟수에 대한 확률분포
 다항분포  이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

 

2. 연속형 확률 분포

  • 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수
  • 한 점에서의 확률은 0, 구간에서의 확률값 = 확률밀도함수
 균일분포  모든 확률변수x가 균일한 확률을 가지는 확률분포 (다트의 확률분포)
 정규분포 ★  평균이 μ이고, 표준편차가 σ인 x의 확률밀도함수 
 평균이 0이고, 표준편차가 1이면 표준정규분포
 지수분포  어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포이다.
 카이제곱분포  모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
 두 집단간의 동질성 검정에 사용
 t- 분포 ★  평균이 0을 중심으로 좌우 동일한 분포를 따른다. 두 집단의 평균이 동일한지 확인.
 표본을 많이 뽑지 못하는 경우 사용
 f-분포   두 집단간 분산의 동일성 검정에 사용

정규분포의 당위성

  • 이항분포의 근사
  • 중심극한 정리: 표본 크기가 N인 확률분포의 표본평균은 N이 충분히 크면 정규분포를 따름
  • 오차의 법칙: 실제값일 가능성이 가장 높은값 MLE가 측정값의 평균이면 정규분포를 따름

중심극한정리

  • 이 정리를 통해 모집단분포가 균등분포, 이항분포, 지수분포를 따르더라도 표본의 크기가 상당히 크면 모집단의 특성을 추정하는데 정규분포의 이점을 활용할 수 있음.
  • 표본 개수가 30개 이상이면 모수를 몰라도 표본통계량으로 정규분포를 구성하여 모수를 추정 가능

 


추정과 가설검정

# 모수적 추론 : 모집단에 특정 분포를 가정하고 모수를 추론

                         정균분포를 이루고, 분산이 같아야함. 등간척도나 비율척도로 측정

 

# 비모수적 추론 : 모집단에 특정 분포 가정을 하지 않음. 분포형태에 관한 검정 실시

                                표본수가 적고, 명목척도, 서열척도인 경우 (성별, 혈액형)

 

# 모분산의 추론 

  • 표본의 분산은 카이제곱 분포를 따른다.
  • 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우 모분산이 추론의 대상이 된다.
  • 모집단이 정규 분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터 모분산에
  • 대한 검정을 유사하게 시행할 수 있다.

통계적 추론은 추정과 가설검정으로 나뉜다.

 

1. 추정

1-1. 점 추정

  • '모수가 특별한 값'일것이라고 추정하는
  • 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것
  • 표본의 평균, 중위수, 최빈값 등을 사용
  • 적률법, 최대우도법, 최소제곱법으로 구함

1-2. 구간 추정

  • 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도하에서 '모수가 특정한 구간'에 있을것이라고 선언하는것
  • 실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다. 
    • 신뢰수준 : 모수값을 포함하는 신뢰구간이 존재할 확률 (90%, 95%, 99%)
    • (신뢰수준 95% : 주어진 신뢰구간에 모수가 포함될 확률 95%라는 의미) 
    • 신뢰구간 : 일정한 크기의 신뢰수준으로 모수가 포함되리라고 기대되는 범위 
  • 신뢰수준이 높아지면 신뢰수준의 길이는 길어진다. ★
  • 표본의 수가 많아지면 신뢰구간의 길이는 짧아진다. ★
  • 모집단의 확률분포를 정규분포라 가정할 때, 95% 신뢰수준 하에서 모평균 μ 의 신뢰구간

 

2. 가설검정

  • 모집단에 귀무가설(H0)과 대립가설(H1)을 설정하고, 표본관찰을 통해 채택여부 결정
  • 귀무가설이 옳다는 전제하에서 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 귀무가설의 채택여부 결정한다.
  • 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓는다. ★★
  • 즉 유의수준을 평가하여 귀무가설을 채택할지 거부할지를 판단한다.★
    • 귀무가설(H0) : 대립가설과 반대의 증거를 찾기 위해 정한 가설 (관습적/보수적인 주장)
    • 대립가설(H1) : 증명하고 싶은 가설  (적극적으로 우리가 입증하려는 주장), 뚜렷한 증거가 있을때 주장★
    • 유의수준(알파a) : 귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'
    • 유의확률(p-value) : 대립가설이 틀릴 확률 ★

 

2-1. 가설검정의 오류

  • 1종 오류 : 귀무가설이 사실인데도 사실이 아니라고 판정 ★ (2종 오류와 상충관계)
  • 2종 오류 : 귀무가설이 사실이 아님에도 사실이라고 판정  
  • 기각역 : 귀무가설을 기각하는 통계량의 영역(대립가설이 맞을 때 그것을 받아들이는 확률)
  • 검정력 : 대립가설이 사실일 때, 이를 사실로서 결정할 확률 1 - β(2종오류)
    정확한 사실\가설검정 결과   귀무가설이 사실이라고 판정     귀무가설이 사실아니라고 판정
       귀무가설(H0)이 사실임                    옳은 결정                제 1종 오류(α) ★
   귀무가설(H0)이 사실이 아님               제 2종 오류(β)                      옳은 결정

 

2-2. p-value (유의확률) 

  • 귀무가설을 얼마나 지지하는지 나타낸 확률. 1종오류를 범할 확률 ★
  • 1종 오류시 우리가 내린 판정이 잘못되었을 실제확률 ★
  • 미리 정해놓은 유의수준값보다 작을 경우 귀무가설은 기각, 대립가설은 채택 ★★
  • ex) 유의수준 0.05하에서 p-value가 5.94e-10로 더 작아서 귀무가설은 기각함
  • 0~1 사이의 값을 가지며, 전체 표본에서 하나의 표본이 나올 수 있는 확률
  • 0.05 이상이면 회귀계수값이 유의하지 않다고 봄.
  • 0.05 이하의 값이면 회귀모형이 유의하다고 봄.

 

 


2절. 기초통계분석

기술통계(Descriptive Statistics)

자료의 특성을 표, 그림, 통계량을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것

최소값, 최대값, 평균, 표준편차, 분산 사용

 

 

그래프 

(그래프의 결과가 통계학적인 유의미를 갖는 것은 아님!)

 

(1) 히스토그램 ★ hist()

  • 도수분포표를 이용하여 표본자료의 분포를 나타낸 연속형 그래프
  • 수평축 위에 계급구간을 표시, 각 계급의 상대도수에 비례하는 넓이의 직사각형을 그린 것
  • 임의로 순서를 바꿀수 없고, 막대의 간격이 없다.
  • 많은 데이터를 가지고 있는 경우 보다 정확한 관계 파악을 할 수 있다. ★

 

(2) 막대그래프 barplot() : 명목형 변수의 빈도에 활용, 막대사이가 끊겨있는 모양

 

 

(3) 줄기-잎 그림 : 각 데이터의 점들을 구간단위로 요약하는 방법으로 계산량이 많지 않음

 

 

(4) 산점도  plot(x,y)

  •  두 특성의 값이 연속적인 수인 경 우, 2개 수치형 변수의 상관관계를 나타냄
  •  각 이차원 자료에 대해 좌표가 (특성 1의 값, 특성 2의 값)인 점을 좌표평면 위에 찍은 것

 

(5) 파레토그림 

 - 명목형 자료에서 중요한 소수를 찾는데 유용한 방법

 

 

(6) 상자그림 ★ boxplot()

  • 이상치 판단에 적합.
  • 최소값, 최대값, Q1, Q2, Q3, 중위값, IQR길이, 1사분위, 3사분위
    • 최소값 : Q1 - (1.5*IQR)
    • 최대값 : Q3 + (1.5*IQR)
    • IQR = Q3-Q1 ★ 
  • NA는 제거하고 그려짐
  • 분포차이를 비교할 수 있지만 분포 차이의 유의미함을 보일 순 없다.

 

 

ex) 


분포의 형태에 관한 측도

1. 왜도

  • 분포의 비대칭 정도를 나타내는 측도
  • 왜도 값이 0인 경우 : 평균 = 중앙값 = 최빈값 (정규분포와 유사)
  • 왜도 양수 (오른쪽으로 꼬리가 긺) : 최빈값 < 중앙값 < 평균
  • 왜도 음수 (왼쪽으로 꼬리가 긺) : 최빈값 > 중앙값 > 평균

 

 

2. 첨도

  • 분포의 중심에서 뾰족한 정도
  • 값이 3에 가까울 수록 정규분포 모양 가짐
  • 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 함


t-검정

모집단의 분산이나 표준편차를 알지못할 때 

모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법

 

  • 평균값이 올바른지, 두집단의 평균 차이가 있는지를 검증하는 방법 : 모수검정, 비모수검정

 

4-1. 모수 검정

  • 표본이 정규성을 갖는다는 모수적특성을 이용하는 통계방법
  • 검정 실시 : 관측된 자료를 이용해 표본평균, 표본분산 등을 구하여 이용
  • 표본 정규성 반드시 확보되어야 함.
  • 등간척도, 비율 척도
  • 평균
  • 피어슨 상관계수
  • one sample t-test, two sample t-test, paired t-test, one way anova

 

4-2. 비모수 검정

  • 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용
  • 모집단의 분포에 아무 제약을 가하지 않고 검정을 실시하는 검정 방법★
  • 모집단에 대한 아무런 정보가 없을 때 사용하는 방법★
  • 관측 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용 ★
  • 평균과 분산이 없으므로 평균 값의 차이, 신뢰구간을 구할 수 없다. ★
  • 절대적인 크기에 의존하지 않는 관측 값의 순위나 부호 등을 이용★
  • 모집단 특성을 몇개의 모수로 결정하기 어렵고 많은 모수가 필요할수있다.★
  • 명목척도, 서열척도
  • 중앙값
  • 스피어만 상관계수
피어슨 상관계수
(-1 ~ 1)
- 두 변수간의 선형적인 크기만 측정 가능, 비선형적인 관계는 나타내지 못한다.
- 연속형 변수만 가능, 정규성을 가정
- 대상이 되는 자료의 종류 등간척도, 비율척도 ★★

- x,y의 공분산을 표준편차의 곱으로 나눈값

) 국어 점수와 영어점수의 상관계수
스피어만 상관계수 ★
(-1 ~ 1)
 - 두 변수 간의 비선형적인 관계도 나타낼 수 있음 ★★
- 연속형 외에 이산형 순서형도 가능 
- 관계가 랜덤이거나 존재하지 않을 경우 상관계수 모두 0에 가깝다. ★ 
- 
원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값(서열)을 기반으로 한다  
- 
비모수적이다.  
- 
대상이 되는 자료의 종류 : 순서척도, 서열척도 ★★ ( 으로 시작!) 
- 
0은 상관 관계가 없음을 의미한다

) 국어성적 석차와 영어성적 석차의 상관계수

 

 

# 부호 검정(Sign test) 

  • 비모수 검정 방법
  • 표본들이 서로 관련되어 있는 경우 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설을 검증하는 방법
  • 이 표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.

 

 

# 정규성 검정 

(1) Q-Q plot  (그래프 그려서 시각적으로 확인하는 방법)

(2) Shapiro-Wilk test  (p-value 0.05보다 크면 정규성 가정)

(3) Kolmogorov-Smirnov test (p-value 0.05보다 크면 정규성 가정)

(4) 히스토그램


R

head(data명) 데이터를 기본 6줄 보여줌
head(data명, n) n번째 라인까지 보여줌
summary(data명) 데이터의 전반적인 기초통계량
mean(data명$column명) 컬럼의 평균
median(data명$column명) 컬럼의 중앙값
sd(data명$column명) 컬럼의 표준편차 = sqrt(var()) = var()^(1/2) (stdev아님!!)
var(data명$column명) 컬럼의 분산
quantile(data명$column명) 컬럼의 분위수

 


인과관계

  • 반응변수(종속변수) : 영향을 받는 변수, 보통 y로 표기                 ex)아파트가격
  • 설명변수(독립변수) : 영향을 주는 변수, 보통 x, x1, x2으로 표기  ex)방개수,면적,거리 등

 

  1. 공분산 : 두 확률변수 X, Y의 상관정도를 나타내는 값
    • 공분산의 부호만으로 두 변수간의 방향성 확인 가능
    • 공분산이 음수면 X가 증가할 때 Y는 감소
    • X, Y가 서로 독립이면 cov(X,Y)=0 이다.
  2. 상관분석(Correlation Analysis)
    • 두 변수의 상관관계를 알아보기 위해 상관계수를 사용
    • 상관계수 : 공분산의 문제를 해결한 값, -1과 1사이

정규화(Regularization)

  • 베타값에 제약(penalty)을 주어 모델에 변화를 주는 것
  • 값이 클수록 제약이 많아져, 적은 변수가 사용되고, 해석이 쉬워지지만 underfitting됨
  • 값이 작아질수록 제약이 적어, 많은 변수가 사용되고, 해석이 어려워지며 overfitting됨

 

구분 릿지(Ridge) 라쏘(Lasso)  엘라스틱넷(Elastic Net)
제약식 L2 norm ★ L1 norm ★ L1  + L 2norm
변수선택 불가능 가능 가능
장점 변수  상관관계가
높아도 좋은 성능
변수 간 상관관계가
높으면 성능이 떨어짐
변수 간 상관관계를
반영한 정규화

 

7-1. 라쏘(Lasso) 회귀분석 ★

회귀분석에서 사용하는 최소제곱법에 제약조건(L1 norm) 부여하는 방법이다

회귀계수의 절대값이 클수록 패널티를 부여한다 

자동적으로 변수선택  

lambda값으로 penalty 정도를 조정한다 

- MSE(평균제곱오차) Penalty항의 합이 최소가 되게 하는 파라메터를 찾는 것이 목적

 

 

7-2. 라쏘(Lasso) 장점

- 제약 조건을 통해 일반화된 모형을 찾는다.

- 가중치들이 0이 되게함으로써 그에 해당하는 불필요한 특성들을 제외해준다,

- 모델에서 가장 중요한 특성이 무엇인지 알게 되는 등 모델 해석력이 좋아진다.

 

 

7-3. 릿지(Ridge) 회귀분석 (R이니까 2!)

- 가중치들은 0에 가까워질뿐 0이 되지는 않는다.

- 변수선택 불가능, 변수간 상관관계가 높아도 좋은 성능

 

 

7-4. 데이터 스케일링(scaling)

  • 정규화 : 값의 범위를 [0,1]로 변환하는 것, min-max nomalization
    = X-Xmin / Xmax-Xmin
    ex) 0,100인 경우 50? 50-0/100-0 = 0.5
  • 표준화 : 특성의 값이 정규분포를 갖도록 변환, 평균0, 표준편차1
    = X-평균/표준편차

 


3절. 회귀분석

회귀분석

 : 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수값을 예측하는 선형모형을 산출하는 방법이다.

or 하나 이상의 변수들이 다른 변수에 미치는 영향에 대해 추론하기위한 통계적 분석방법

 

  • 반응변수(종속변수) : 영향을 받는 변수, 보통 y로 표기 ex) 아파트가격
  • 설명변수(독립변수) : 영향을 주는 변수, 보통 x, x1, x2으로 표기 ex) 방개수,면적,거리 등
  • 회귀계수 : 독립변수에 영향을 줌(w), 회귀계수에 따라 선형,비선형 회귀로 나뉨
  • 회귀계수 추정 : 최소자승법(최소제곱법) ★
  • 최소자승법 : 데이터와 추정된 함수가 얼마나 잘 맞는지 잔차들의 제곱(square)합 구해서 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법

 


회귀모형에 대한 가정 ★

  • 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형 ★
  • 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않음 ★
  • 정상성(정규성) : 잔차항이 정규분포를 이뤄야 함 ★
  • 등분산성 : 오차항들의 분포는 동일한 분산을 가짐 (산점도가 나팔모양이면 안됨)
  • 비상관성 : 잔차들끼리 상관이 없어야 함
  • (이분산성 아님!!)

 

 

회귀분석 모형에서 확인할 사항 ★★

(1) 모형이 통계적으로 유의미한가?          ⇒  F통계량(p값) 확인

F 통계량 확인, F통계량의 p-값이 0.05 보다 작으면 추정된 회귀식은 통계적으로 유의미하다고 한다.

 

(2) 회귀계수들이 유의미한가?                   회귀계수의 T값과 유의확률 (p-value) 또는 신뢰구간 확인

 

(3) 모형이 얼마나 설명력을 갖는가?          결정계수(R-square) 확인

결정계수를 확인, 결정계수는 0에서 1값을 가짐, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

 

(4) 모형이 데이터를 잘 적합하고 있는가?  잔차통계량, 잔차그래프 확인하고 회귀진단

 


단순선형회귀분석

하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 잇는 통계기법

 


최소제곱법, 최소자승법 ★

1) 최소제곱법, 최소자승법 

자료를 가장 잘 설명하는 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값을 구하며, 이 회귀계수 추정량을 최소제곱이라고 한다.

  • 데이터와 추정된 함수가 얼마나 잘 맞는지는 잔차들을 제곱(square)해서 합하고(잔차제곱합RSS,SSE), 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법
  • 잔차제곱이 가장 작은 선을 구하는 것
  • 즉, 최소제곱법은 해당식이 제곱형태이니 미분해서 0이 되는 지점을 찾기 위해 잔차제곱합을 최소화하는 계수를 구하는 방법이다.

구분 일반선형 회귀분석 로지스틱 회귀분석
종속변수 연속형 변수 이산형 변수
모형 탐색 방법 1최소자승법  최대우도법, 가중최소자승법
모형 검정 F 검정, t 검정 카이제곱 검정 

2) 최대우도법

  • 관측 값이 가정된 모집단에서 하나의 표본으로 추출된 가능성이 가장 크게 되도록 하는 회귀계수 추정방법
  • 표본의 수가 클 경우에 최대우도법은 안정적이다.

 

3) 카이제곱 검정 

  • 범주별로 관측빈도와 기대빈도의 차이를 통해서 확률모형이 데이터를 얼마나 잘 설명하는지검정하는 통계적 방법
  • 독립변수와 종속변수가 모두 명목척도일 경우 적합한 통계 기법
    • 일원 카이제곱검정: 적합성 검정 - 모집단이 특정한 분포를 따른다는 가설에 대해 검정
    • 이원 카이제곱검정: 독립성 검정 - 표본 추출시 두 이산형 변량에 대한 독립성 여부 조사
  • 동질성 검정 - 두집단 이상에 각 범주간의 비율이 서로 동일한지 검정
  • - x^2분포는 t분포와 정규분포와는 달리 좌우대칭이 아니며 오른쪽으로 긴 꼬리를 갖는다.
  • - 확률변수 x^2은 제곱합의 합으로 구하기 때문에 음수는 가질 수 없고 다만 가장 왼쪽에서는 0의 값을 갖는다.

 


회귀모형 결과 해석

  • 유의성 검정 : 선형관계 성립여부. 기울기계수=0일 때 귀무가설, 0아니면 대립가설로 설정

(1) F-통계량 = 회귀제곱평균(MSR)/잔차제곱평균(MSE)

  • p-value< 0.05 이면 추정된 회귀식은 통계적으로 유의하다고 결론
  • F-통계량이 크면 p-value< 0.05이고 귀무가설을 기각. 모형이 유의하다고 결론

(2) t값 = Estimate(회귀계수)/Std.Error(표준오차)

 

(3) 결정계수 R² : 회귀식의 적합도를 재는 척도 = SSR/SST

  • 총 변동 중 회귀모형에 의해 설명되는 변동이 차지하는 비율이다. ★
  • 회귀모형에서 입력변수가 증가하면 결정계수도 증가한다.
  • 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 값이 감소한다. ★
  • 다중회귀분석에서는 최적모형의 선정기준으로 수정된 결정계수 값을 사용하는 것이 적절
  • 총 제곱합(SST) = 회귀제곱합(SSR) + 오차제곱합(SSE)
  • R² = 회귀제곱합(SSE) / 총제곱합(SST) ★  = 1-(SSR/SST)
  • 결정계수가 클수록 회귀방정식과 상관계수의 설명력이 높아진다.

 


다중선형회귀분석

독립변수가 k개이며 종속변수와의 관계가 선형이다.

 

  • 다중공선성(multicollinearity)
    • 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란하다.
    • 독립변수가 많아지면 모델 설명력이 증가하지만 모형이 복잡해지고 다중공선성 문제가 발생
    • 모형의 일부 설명변수가 다른 설명변수와 상관되어 있을 때 발생하는 조건
    • 중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 된다.
    • VIF함수로 값을 구할 수 있고, 보통 VIF값이 10이 넘으면 다중공선성이 존재한다고 본다.
    • 해결방안: 높은 상관 관계가 있는 설명(=예측)변수를 모형에서 제거단계적 회귀분석 제거

 


최적회귀방정식의 선택 ( 설명변수의 선택)

  1. 모든 가능한 조합의 회귀분석 ★
    • 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 가장 적합한 회귀모형을 선택
    • AIC BIC의 값이 가장 작은 모형을 선택하는 방법 

  2. 전진선택법 (Forward Selection)
    • 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
    • 후보가 되는 설명변수 중 가장 설명을 잘하는 변수가 유의하지 않을 때의 모형을 선택
    • 설명변수를 추가했을 때 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가한다★☆

  3. 후진제거법 (Backward Elimination) ★★★
    • 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 제거★
    • 더 이상 유의하지 않은 변수가 없을 때의 모형을 선택

  4. 단계별방법  (Stepwise Selection)
    • 기존의 모형에 예측변수 추가, 제거를 반복하여 최적의 모형을 찾는 방법 ★☆
    • 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약해지면 해당변수 제거 하는 등 단계별로 추가 or 제거되는 변수의 여부 검토
    • 더 이상 추가 또는 제거되는 변수가 없을 때의 모형을 선택

  5. 적은 수의 설명변수
    • 가능한 범위 내 적은 수의 설명변수를 포함시킨다★☆
    • lm : 회귀분석
    • scope : 분석시 고려할 변수의 범위 / 가장 낮은 단계 lower에 1 입력시 상수항 의미, 가장 높은 단계 설정하기 위해서는 설명변수들 모두 써줘야 한다.
    • direction : 변수 선택방법, 선택 가능 옵션은 forward(전진선택법), backward(후진선택법), both(단계적방법)