이번 포스팅에서는 다중선형회귀에 대해 알아보고자 합니다. (참고로 RSS : 잔차제곱합, ESS : 설명제곱합, TSS : 총제곱합 입니다.)
다중선형회귀는 단순선형회귀와 다르게 하나의 설명변수가 아닌 다수의 설명변수를 사용하여 반응변수를 설명하는 분석방법입니다.
따라서 다중선형회귀모델은 아래와 같은 형태를 가집니다.
$Y = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \varepsilon$ [formula 1]
단순선형회귀와 동일하게 회귀계수는 최소제곱법을 사용하여 추정할 수 있습니다. 최소제곱법은 오차를 최소화하는 것이지만 오차를 모르므로 잔차를 이용해서도 추정할 수 있습니다.
$$RSS = \sum_{i=1}^{n}e_i^2 = \sum_{i=1}^{n}(y_i - \hat{y_i})^2 = \sum_{i=1}^{n}(y_i - (\beta_0 + \beta_1X_1 + \cdots + \beta_pX_p))^2$$
여기서 SSE에 대해 모든 회귀계수에 대해 편미분을 진행해서 구할 수 있지만, 행렬식으로 표현하는 것이 좀 더 효율적으로 구할 수 있습니다. [formula 1]에 나와있는 식은 $Y=X\beta + \varepsilon$로, RSS는 $RSS=(Y-X\beta)'(Y-X\beta)$로 표현할 수 있습니다.
컴퓨터가 자동으로 계산하므로 공식을 알 필요는 없지만 회귀계수의 추정식과 공분산행렬은 아래와 같습니다.
$$\beta = (X'X)^{-1}X'Y$$
$$Var(\beta) = \sigma^2(X'X)^{-1}$$
또한 적합값(예측값)과 잔차, 분산의 추정량은 아래와 같습니다.
$$\hat{Y} = X\hat{\beta} = X(X'X)^{-1}X'Y$$
$$e = Y - \hat{Y} = Y - X(X'X)^{-1}X'Y = (I-X(X'X)^{-1}X')Y$$
$$\hat{\sigma}^2 = \frac{RSS}{n-p-1}$$
계수들과 기타 통계량들을 구한 후 이제 다중선형회귀모델이 데이터를 설명하는데 적합한지 확인해야 합니다.
적합한지 확인하는 것은 적어도 1개 이상의 설명변수가 반응변수를 설명하는데 유용한지 확인하는 것이며 F-Test로 검정할 수 있습니다. 만약 모든 설명변수가 반응변수에 영향을 주지 않는다면 대응하는 회귀계수$\beta_i$역시 0에 가깝게 나올 것 입니다.
따라서 귀무가설과 검정통계량은 다음과 같습니다. (참고 : https://moogie.tistory.com/34에서 r=1, p=p+1인 경우)
$$H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0$$
$$F = \frac{(TSS-RSS)/p}{RSS/(n-p-1)} \sim F(p, n-p-1)$$
F값은 F(p, n-p-1)을 따르므로 기각역에 포함되거나 p-value가 유의수준보다 작다면 귀무가설을 기각하고 적어도 1개 이상의 설명변수가 반응변수에 영향을 준다고 해석할 수 있습니다. 만약 귀무가설을 기각해 1개 이상의 설명변수가 영향을 준다고 판단했으며 변수선택 기법을 통해 어느 설명변수가 반응변수와 연관이 있는지 결정해야합니다. 변수선택 기법에는 Filter method, Wrapper method, Embedded method로 구분할 수 있는데 주제와 벗어나므로 생략하겠습니다.
참고로, 모델 적합의 측도로 단순선형회귀와 동일하게 잔차표준오차와 결정계수가 사용될 수 있습니다. 다만 결정계수의 경우에는 변수가 추가될수록 증가하므로 수정된 결정계수를 사용하는 것을 추천합니다.
- 잔차표준오차(Residual Standard Error, RSE) = $\sqrt{\frac{RSS}{n-p-1}}$
- 결정계수($R^2$) = $\frac{ESS}{TSS}$ = $1-\frac{RSS}{TSS}$
- 수정된결정계수($R_{adjust}^2$) = $1-\frac{(n-1)(1-R^2)}{(n-p)}$
'AI > Machine Learning' 카테고리의 다른 글
[ISR] 3. 선형회귀(Linear Regression) Part 5 (0) | 2023.03.11 |
---|---|
[ISR] 3. 선형회귀(Linear Regression) Part 4 (0) | 2023.03.09 |
[ISR] 3. 선형회귀(Linear Regression) Part 2 (0) | 2023.03.08 |
[ISL] 3. 선형회귀(Linear Regression) Part 1 (0) | 2023.02.28 |
[ISR] 2. Bayes Classifier & KNN (2) | 2023.02.20 |