선형회귀 파트가 참고할게 많아서 부득이하게 길어졌는데 이번 포스팅을 끝으로 회귀분석을 마치려고 합니다.
마지막으로 선형회귀의 잔차분석을 통해 잠재적 문제에 관해 살펴보겠습니다.
1. 비선형성
- 선형회귀분석의 가정 : 선형성
- $(e_i, x_i)$ 또는 $(e_i, \hat{y_i})$ 그래프를 통해 확인
- 잡음 이외의 패턴이 존재하면 설명변수에 Box-cox 변환, 다항함수, 로그변환 등의 변환을 시도
2. 오차항의 상관성
- 선형회귀분석의 가정 : 오차항의 독립성
- 오차항이 독립이 아닌 상관성을 가질 경우 $\varepsilon_i$는 $\varepsilon_{i+1}$에 영향을 끼침
- 순서에 따른 $(index, e_i)$ 그래프를 통해 확인
- 또한 상관성이 존재하는 경우, 표준오차를 과소추정
3. 등분산성 위배
- 선형회귀분석의 가정 : 오차항의 등분산성 ($Var(\varepsilon_i) = \sigma^2$)
- 만약, 오차항의 비상수 분산 혹은 이분산성이 나타난다면 반응변수 Y를 $logY$ 혹은 $\sqrt{Y}$로 변환
- $(e_i, \hat{y_i})$ 그래프를 통해 확인
4. 이상치
- 이상치는 회귀선에 큰 영향을 주지 않지만 RSE에 영향을 줄 수 있음 (RSE는 신뢰구간, P-value를 구할 때 사용)
- Studentized Resiudal($r_i$) 그래프를 통해 확인
- $|r_i|$ 값이 3이상이면 이상치로 판단할 수 있지만 무조건 잘못된 값은 아님
- $r_i = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}$
5. 레버리지가 높은 관측치
- 높은 레버리지를 가지는 관측치 $x_i$의 값이 보통 수준과 다른 값으로 추정회귀선에 큰 영향을 끼치므로 제거하는 것이 좋음
- [Matrix Form] $ H = X(X'X)^{-1}X'$
- [In ols Regression] $ h_i = \frac{1}{n} + \frac{(x_i-\overline{x})^2}{\sum_{i=1}^{n}(x_{i'}-\overline{x})^2}$
- $\frac{p+1}{n}$보다 훨씬 크면 레버리지가 높다고 판단
6. 공선성
- 두 개 이상의 설명변수들 사이에 상관성이 높게 나타나는 현상
- 회귀계수의 표준오차를 증가시키므로 공선성이 있으면 제거하는 것이 좋음
- 상관계수를 구해 높은 값이 있으면 관련된 변수들에 공선성이 있다고 판단할 수 있음
- 다중공선성은 분산팽창인수(VIF)를 통해 검사하며 보통 5나 10 이상이면 다중공선성이 존재한다고 판단
- VIF = $\frac{1}{1-R_{X_j|X_{-j}}^2}$
- (참고 : $R_{X_j|X_{-j}}^2$는 $X_j$를 반응변수로, 나머지 변수를 설명변수로 두고 회귀분석을 했을때 결정계수 값)
'AI > Machine Learning' 카테고리의 다른 글
[ISLR] 4.분류(Classification) - 선형판별분석(LDA) (0) | 2023.03.30 |
---|---|
[ISLR] 4. 분류(Classification) - 로지스틱 회귀분석(Logistic Regression) (0) | 2023.03.28 |
[ISR] 3. 선형회귀(Linear Regression) Part 4 (0) | 2023.03.09 |
[ISR] 3. 선형회귀(Linear Regression) Part 3 (0) | 2023.03.08 |
[ISR] 3. 선형회귀(Linear Regression) Part 2 (0) | 2023.03.08 |