[회귀분석] 다중선형회귀(Multiple Linear Regression)

2023. 3. 3. 16:27·Statistics

단순선형회귀모형과 다르게 여러개의 독립변수(설명변수)를 사용하여 종속변수(반응변수)와의 관계를 나타내는 모형으로 모델은 다음과 같습니다. (참고로, SSE : 오차제곱합, SSR : 회귀제곱합, SST : 총제곱합)

(아래 식 이후로 행렬의 경우에는 편의상 벡터기호를 제외하고 작성하겠습니다.)

$$Y = \beta_0 + \beta_1X_1 + \cdots + \beta_{p-1}X_{p-1} + \varepsilon = \vec{x}\vec{\beta} + \vec{\varepsilon}$$

 

다중선형회귀를 위한 가정은 단순선형회귀와 동일하며 아래와 같습니다.

 

  • 오차항의 평균이 0이며 분산이 $\sigma^2$인 정규분포의 형태를 가진다.
  • 오차항은 확률변수로 서로 독립을 만족한다.
  • 종속변수는 각 독립변수의 선형결합(linear combination)으로 나타낼 수 있다.

참고로 분석하기 전에 산점도행렬과 상관분석을 포함한 EDA를 진행하는 것을 추천드립니다.

 

회귀계수의 추정 및 분포

단순선형회귀와 마찬가지로 잔차는 $e_i = Y_i - \hat{Y_i}$로 나타낼 수 있으며 최소제곱법을 적용하면 다음과 같습니다.

 

따라서 최소제곱추정량은 $\beta = (X'X)^{-1}X'y$가 됩니다.

또한 최소제곱법으로 구한 회귀계수의 공분산행렬은 $Cov(\hat{\beta}) = \sigma^2(X'X)^{-1}$와 같습니다.

이때 평균과 공분산행렬을 구했으므로 각 회귀계수에 대한 통계적 검정 역시 가능합니다. 

 

예측 및 잔차

위에서 최소제곱법을 사용해 회귀계수를 추정했으므로 회귀식과 잔차를 다음과 같이 구할 수 있습니다.

  • 추정된 회귀식 : $\hat{y} = X\hat{\beta}$
  • 잔차(Resiudal) : $e = y - \hat{y} = y - X\hat{\beta}$

 

적합도측정

단순선형회귀와 유사하나 변수가 여러개인만큼 행렬기호로 표시됩니다.

  1. 잔차표준오차(s)
    • s = $\frac{1}{n-p}\sum_{i=1}^{n}(Y_i-\hat{Y_i})^2 = \sqrt{MSE}$ 
    • 다중선형회귀에서는 p개의 파라미터를 추정하므로 자유도가 n-p가 됩니다.
    • 단순선형회귀에서와 마찬가지로 잔차표준오차는 Y의 단위를 따릅니다.
    • 어느값이 좋인지에 대한 명확한 기준이 없습니다.
  2. 결정계수(Coefficient of determination)
    • $R^2$ = $\frac{SSR}{SST} = \frac{SSR}{SSR+SSE}$
    • 0과 1사이에 존재하며 1에 가까울수록 추정된 회귀식으로 인해 데이터의 총변동을 많이 설명할 수 있다는 뜻
    • 다만 잔차표준오차와 같이 어느정도의 값이 좋은지에 대한 기준이 없음
    • 반응변수에 유의하지 않은 변수도 포함하면 결정계수가 높아지는 단점이 있으므로 수정된 결정계수를 사용해야함
    • $R_{adj}^2=1-\frac{\left(n-1\right)}{\left(n-p\right)}\left(1-R^2\right)$
  3. 예측잔차제곱합(PRedicted Residual Sum of Squares) 
    • PRESS = $\sum_{i=1}^{n}(y_i - \hat{y_{i(i)}})^2$
    • 이때 $\hat{y_{i()i}}$는 i번째 관측치를 제외시킨 데이터를 이용해 모델을 적합한 후 적합된 모델을 이용해 i번째 관측치를 예측한 값
    • PRESS의 값이 SSE와 비슷하면 예측력이 높으며, 이상치(Outlier)가 존재하면 PRESS의 값이 커짐

 

 

분산분석표를 활용한 모형의 검정

 

 

잔차분석

오차항에 대한 몇가지 가정을 바탕으로 두고 회귀분석을 진행하였기 때문에, 회귀분석을 하고나서 오차항의 가정에 대한 타당성을 분석해야합니다. 다만 오차는 알수 없기때문에 잔차를 이용해 분석하는데 이를 잔차분석이라고 합니다.

잔차는 서로 독립이 아닐수도 있으며(상관성을 가짐), 분산이 일정하지 않을 수 있습니다. 따라서 오차항과 비슷한 성질을 가지기 위해서 표준화잔차(Standardized Resiudal, r)을 이용하여 잔차분석에 사용하는 것이 좋습니다.

 

$$ r_i = \frac{e_i}{s\sqrt{1-h_{ii}}}$$

$$(이때, h_{ii} = diag_{i}(X(X'X)^{-1}X')$$

저작자표시 비영리 변경금지 (새창열림)

'Statistics' 카테고리의 다른 글

불편성(Unbiasedness)와 일치성(Consistency)  (0) 2024.12.24
[Categorical Analysis] 1. Generalized Linear Model(일반화 선형 모델)  (0) 2023.12.12
[회귀분석] 부분 F 검정 (Partial F Test)  (0) 2023.03.03
[회귀분석] 단순선형회귀분석(Simple Linear Regression)  (0) 2023.03.03
'Statistics' 카테고리의 다른 글
  • 불편성(Unbiasedness)와 일치성(Consistency)
  • [Categorical Analysis] 1. Generalized Linear Model(일반화 선형 모델)
  • [회귀분석] 부분 F 검정 (Partial F Test)
  • [회귀분석] 단순선형회귀분석(Simple Linear Regression)
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[회귀분석] 다중선형회귀(Multiple Linear Regression)
상단으로

티스토리툴바