[ISR] 3. 선형회귀(Linear Regression) Part 5

2023. 3. 11. 12:32·AI/Machine Learning

선형회귀 파트가 참고할게 많아서 부득이하게 길어졌는데 이번 포스팅을 끝으로 회귀분석을 마치려고 합니다.

마지막으로 선형회귀의 잔차분석을 통해 잠재적 문제에 관해 살펴보겠습니다.

 

 

1. 비선형성 

  • 선형회귀분석의 가정 : 선형성
  • $(e_i, x_i)$ 또는 $(e_i, \hat{y_i})$ 그래프를 통해 확인
  • 잡음 이외의 패턴이 존재하면 설명변수에 Box-cox 변환, 다항함수, 로그변환 등의 변환을 시도 

 

2. 오차항의 상관성

  • 선형회귀분석의 가정 : 오차항의 독립성
  • 오차항이 독립이 아닌 상관성을 가질 경우 $\varepsilon_i$는 $\varepsilon_{i+1}$에 영향을 끼침
  • 순서에 따른 $(index, e_i)$ 그래프를 통해 확인
  • 또한 상관성이 존재하는 경우, 표준오차를 과소추정

 

3. 등분산성 위배

  • 선형회귀분석의 가정 : 오차항의 등분산성 ($Var(\varepsilon_i) = \sigma^2$)
  • 만약, 오차항의 비상수 분산 혹은 이분산성이 나타난다면 반응변수 Y를 $logY$ 혹은 $\sqrt{Y}$로 변환
  • $(e_i, \hat{y_i})$ 그래프를 통해 확인

 

4. 이상치

  • 이상치는 회귀선에 큰 영향을 주지 않지만 RSE에 영향을 줄 수 있음 (RSE는 신뢰구간, P-value를 구할 때 사용)
  • Studentized Resiudal($r_i$) 그래프를 통해 확인 
  • $|r_i|$ 값이 3이상이면 이상치로 판단할 수 있지만 무조건 잘못된 값은 아님
  • $r_i = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}$

 

5. 레버리지가 높은 관측치

  • 높은 레버리지를 가지는 관측치 $x_i$의 값이 보통 수준과 다른 값으로 추정회귀선에 큰 영향을 끼치므로 제거하는 것이 좋음
  • [Matrix Form] $ H = X(X'X)^{-1}X'$
  • [In ols Regression] $ h_i = \frac{1}{n} + \frac{(x_i-\overline{x})^2}{\sum_{i=1}^{n}(x_{i'}-\overline{x})^2}$
  • $\frac{p+1}{n}$보다 훨씬 크면 레버리지가 높다고 판단

 

6. 공선성

  • 두 개 이상의 설명변수들 사이에 상관성이 높게 나타나는 현상
  • 회귀계수의 표준오차를 증가시키므로 공선성이 있으면 제거하는 것이 좋음
  • 상관계수를 구해 높은 값이 있으면 관련된 변수들에 공선성이 있다고 판단할 수 있음
  • 다중공선성은 분산팽창인수(VIF)를 통해 검사하며 보통 5나 10 이상이면 다중공선성이 존재한다고 판단
  • VIF = $\frac{1}{1-R_{X_j|X_{-j}}^2}$
  • (참고 : $R_{X_j|X_{-j}}^2$는 $X_j$를 반응변수로, 나머지 변수를 설명변수로 두고 회귀분석을 했을때 결정계수 값)
저작자표시 비영리 변경금지 (새창열림)

'AI > Machine Learning' 카테고리의 다른 글

[ISLR] 4.분류(Classification) - 선형판별분석(LDA)  (0) 2023.03.30
[ISLR] 4. 분류(Classification) - 로지스틱 회귀분석(Logistic Regression)  (0) 2023.03.28
[ISR] 3. 선형회귀(Linear Regression) Part 4  (0) 2023.03.09
[ISR] 3. 선형회귀(Linear Regression) Part 3  (0) 2023.03.08
[ISR] 3. 선형회귀(Linear Regression) Part 2  (0) 2023.03.08
'AI/Machine Learning' 카테고리의 다른 글
  • [ISLR] 4.분류(Classification) - 선형판별분석(LDA)
  • [ISLR] 4. 분류(Classification) - 로지스틱 회귀분석(Logistic Regression)
  • [ISR] 3. 선형회귀(Linear Regression) Part 4
  • [ISR] 3. 선형회귀(Linear Regression) Part 3
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[ISR] 3. 선형회귀(Linear Regression) Part 5
상단으로

티스토리툴바