[ISR] 3. 선형회귀(Linear Regression) Part 3

2023. 3. 8. 20:24·AI/Machine Learning

이번 포스팅에서는 다중선형회귀에 대해 알아보고자 합니다. (참고로 RSS : 잔차제곱합, ESS : 설명제곱합, TSS : 총제곱합 입니다.)

다중선형회귀는 단순선형회귀와 다르게 하나의 설명변수가 아닌 다수의 설명변수를 사용하여 반응변수를 설명하는 분석방법입니다.

따라서 다중선형회귀모델은 아래와 같은 형태를 가집니다.

 

$Y = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \varepsilon$ [formula 1]

 

 

단순선형회귀와 동일하게 회귀계수는 최소제곱법을 사용하여 추정할 수 있습니다. 최소제곱법은 오차를 최소화하는 것이지만 오차를 모르므로 잔차를 이용해서도 추정할 수 있습니다.

 

$$RSS = \sum_{i=1}^{n}e_i^2 = \sum_{i=1}^{n}(y_i - \hat{y_i})^2 = \sum_{i=1}^{n}(y_i - (\beta_0 + \beta_1X_1 + \cdots + \beta_pX_p))^2$$

 

여기서 SSE에 대해 모든 회귀계수에 대해 편미분을 진행해서 구할 수 있지만, 행렬식으로 표현하는 것이 좀 더 효율적으로 구할 수 있습니다. [formula 1]에 나와있는 식은 $Y=X\beta + \varepsilon$로, RSS는 $RSS=(Y-X\beta)'(Y-X\beta)$로 표현할 수 있습니다.

 

컴퓨터가 자동으로 계산하므로 공식을 알 필요는 없지만 회귀계수의 추정식과 공분산행렬은 아래와 같습니다.

 

$$\beta = (X'X)^{-1}X'Y$$

$$Var(\beta) = \sigma^2(X'X)^{-1}$$

 

 

또한 적합값(예측값)과 잔차, 분산의 추정량은 아래와 같습니다.

 

$$\hat{Y} = X\hat{\beta} = X(X'X)^{-1}X'Y$$

$$e = Y - \hat{Y}  = Y - X(X'X)^{-1}X'Y = (I-X(X'X)^{-1}X')Y$$

$$\hat{\sigma}^2 = \frac{RSS}{n-p-1}$$

 

 

계수들과 기타 통계량들을 구한 후 이제 다중선형회귀모델이 데이터를 설명하는데 적합한지 확인해야 합니다.

적합한지 확인하는 것은 적어도 1개 이상의 설명변수가 반응변수를 설명하는데 유용한지 확인하는 것이며 F-Test로 검정할 수 있습니다. 만약 모든 설명변수가 반응변수에 영향을 주지 않는다면 대응하는 회귀계수$\beta_i$역시 0에 가깝게 나올 것 입니다.

따라서 귀무가설과 검정통계량은 다음과 같습니다. (참고 : https://moogie.tistory.com/34에서 r=1, p=p+1인 경우)

 

$$H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0$$

$$F = \frac{(TSS-RSS)/p}{RSS/(n-p-1)} \sim F(p, n-p-1)$$

 

F값은 F(p, n-p-1)을 따르므로 기각역에 포함되거나 p-value가 유의수준보다 작다면 귀무가설을 기각하고 적어도 1개 이상의 설명변수가 반응변수에 영향을 준다고 해석할 수 있습니다. 만약 귀무가설을 기각해 1개 이상의 설명변수가 영향을 준다고 판단했으며 변수선택 기법을 통해 어느 설명변수가 반응변수와 연관이 있는지 결정해야합니다. 변수선택 기법에는 Filter method, Wrapper method, Embedded method로 구분할 수 있는데 주제와 벗어나므로 생략하겠습니다.

 

참고로, 모델 적합의 측도로 단순선형회귀와 동일하게 잔차표준오차와 결정계수가 사용될 수 있습니다. 다만 결정계수의 경우에는 변수가 추가될수록 증가하므로 수정된 결정계수를 사용하는 것을 추천합니다.

  • 잔차표준오차(Residual Standard Error, RSE) = $\sqrt{\frac{RSS}{n-p-1}}$
  • 결정계수($R^2$) = $\frac{ESS}{TSS}$ = $1-\frac{RSS}{TSS}$
  • 수정된결정계수($R_{adjust}^2$) = $1-\frac{(n-1)(1-R^2)}{(n-p)}$

 

 

저작자표시 비영리 변경금지 (새창열림)

'AI > Machine Learning' 카테고리의 다른 글

[ISR] 3. 선형회귀(Linear Regression) Part 5  (0) 2023.03.11
[ISR] 3. 선형회귀(Linear Regression) Part 4  (0) 2023.03.09
[ISR] 3. 선형회귀(Linear Regression) Part 2  (0) 2023.03.08
[ISL] 3. 선형회귀(Linear Regression) Part 1  (0) 2023.02.28
[ISR] 2. Bayes Classifier & KNN  (2) 2023.02.20
'AI/Machine Learning' 카테고리의 다른 글
  • [ISR] 3. 선형회귀(Linear Regression) Part 5
  • [ISR] 3. 선형회귀(Linear Regression) Part 4
  • [ISR] 3. 선형회귀(Linear Regression) Part 2
  • [ISL] 3. 선형회귀(Linear Regression) Part 1
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[ISR] 3. 선형회귀(Linear Regression) Part 3
상단으로

티스토리툴바