변수들 간의 관계를 나타내는 모형은 다음과 같이 분류할 수 있습니다.
(참고로, SSE : 오차제곱합, SSR : 회귀제곱합, SST : 총제곱합)
- Deterministic Model (결정론적 모델) : 주로 수학, 과학적 공식에 사용되며 오차(error)가 존재하지 않는 정확한 수학적 함수관계
- Statistical Model (통계학적 모델) : 변수들 간의 관계에 오차를 허용하는 모델
- 왜 오차를 허용하는가?
- 측정오차
- 종속변수와 독립변수의 관계를 정확히 모름
- 알려지지 않은 변수가 종속변수에 영향을 줄 수 있음
- 왜 오차를 허용하는가?
회귀분석은 통계학적 모델에 포함되며 영향을 주는 변수를 독립변수(Independent Variable), 영향을 받는 변수를 종속변수(Dependent Variable)이라고 함
단순선형회귀분석
회귀모형 중 가장 간단한 형태를 가지고 있으며, 아래 모델과 같이 하나의 독립변수를 통해 종속변수와의 관계를 표현함
- 가정 : $Y = \beta_0 + \beta_1X + \varepsilon$ ($\beta_0$ : 절편, $\beta_1$ : 기울기, $\varepsilon$ : 오차항)
- 예측 : $ \widehat{Y_i} = \widehat{\beta_0} + \widehat{\beta_1}X_i $
- 적합된 모델 : $ Y_i = \widehat{\beta_0} + \widehat{\beta_1}X_i + e_i$
- 오차항의 분산 : MSE를 통해 예측 (MSE = $\frac{SSE}{n-2}$ = $\frac{\sum_{i=1}^{n}(Y_i - \hat{Y_i})^2}{n-2}$)
- 가정 : 오차항이 정규분포를 따르며 서로 독립이다.
이때 오차항이 iid인 $\varepsilon \sim N(\mu, \sigma^2)$을 만족한다고 하면 다음이 성립한다. ($X$는 데이터이므로 상수처럼 생각)
1. $ E(Y_i | X_i) = \beta_0 + \beta_1X_i$
2. $ Var(Y_i | X_i) = \sigma^2$
- 잔차의 설명
적합된 모델을 이용해서 예측값을 구하면 Y의 실제 관측된 값과 차이가 모두 동일할 수는 없다. (상관계수가 1이나 -1이 아닌이상 차이가 발생함) 이러한 차이를 잔차(Residual)라고 말하며 $e_i$로 표시한다.
$$ e_i = Y_i - \widehat{Y_i}$$
참고로, 오차와 잔차는 유사하지만 다른 개념입니다.
- 회귀계수($\beta_0$, $\beta_1$)의 추정 및 성질
회귀계수 $\beta_0$와 $\beta_1$은 회귀분석 가정에서 나온 미지의 모수이며 이를 표본 데이터로부터 추정해야 합니다. 이때 추정할 수 있는 방법은 최소제곱법, MLE, 경사하강법등을 통해 구할 수 있으나 여기서는 최소제곱법에 대해 설명하겠습니다.
최소제곱법은 잔차의 전체적인 크기를 작게하는 방법으로 이를 오차의 제곱 합을 가장 작게 하는 방식으로 $\beta_0$와 $\beta_1$을 구하는 것이죠.
수식으로 표현하면 $S(\beta_0, \beta_1) = \sum_{i=1}^{n} \varepsilon_i^2 = \sum_{i=1}^{n}(Y_i-\beta_0-\beta_1X_i)^2$의 크기를 가장 작게해야 합니다. 따라서 각 회귀계수에 대해 편미분을 하여 가장 작아지게 하는 지점을 선택해야하며 과정은 다음과 같습니다.
따라서 최소제곱법으로 추정된 $\beta_0$와 $\beta_1$는 아래과 같고 이를 최소제곱추정량이라고 합니다.
- $\widehat{\beta_0} = \overline{Y} - \widehat{\beta_1}\overline{X}$
- $\widehat{\beta_1}$ = $\frac{Cov(X,Y)}{Var(X)}$ = $\frac{S_{XY}}{S_{XX}} $ = $r\frac{S_Y}{S_X}$
또 최소제곱추정량에 대해 다음이 성립함을 보일 수 있습니다.
- $E[\widehat{\beta_0}]$ = $\beta_0$
- $E[\widehat{\beta_1}]$ = $\beta_1$
- $Var(\widehat{\beta_0})$ = $\sigma^2(\frac{1}{n} + \frac{\overline{X}^2}{\sum_{i=1}^{n}(X_i - \overline{X})^2})$
- $Var(\widehat{\beta_1})$ = $\sigma^2[\frac{1}{\sum_{i=1}^{n}(X_i - \overline{X})^2}]$
또 각 회귀계수 추정치는 정규분포를 따르므로 통계적인 추론도 가능합니다.
- 적합도 측정
- 잔차표준오차(Residual Standard Error) = $\sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(y_i - \hat{y_i})^2}$ = $\sqrt{MSE}$
- Y의 단위에 의존해 서로 다른 단위를 가지는 두 개 이상 모형에 비교하는 것은 적합하지 않음
- 잔차표준오차(s)가 작을수록 적합이 잘된 것으로 판단할 수 있음
- 어느정도의 값이 좋은지에 대한 기준이 없음
- 결정계수(Coefficient of determination) = $\frac{SSR}{SST} = \frac{SSR}{SSR+SSE}$
- 총편차($Y_i - \overline{Y}$)를 회귀식에 의해 설명된 편차($\hat{Y_i} - \overline{Y}$)과 설명되지 않은 편차($Y_i - \hat{Y_i}$)로 구분 후 유도하여 계산
- 0과 1사이에 존재하며 1에 가까울수록 추정된 회귀식으로 인해 데이터의 총변동을 많이 설명할 수 있다는 뜻
- 다만 잔차표준오차와 같이 어느정도의 값이 좋은지에 대한 기준이 없음
- 예측잔차제곱합(PRedicted Residual Sum of Squares)
- PRESS = $\sum_{i=1}^{n}(y_i - \hat{y_{i(i)}})^2$
- 이때 $\hat{y_{i()i}}$는 i번째 관측치를 제외시킨 데이터를 이용해 모델을 적합한 후 적합된 모델을 이용해 i번째 관측치를 예측한 값
- PRESS의 값이 SSE와 비슷하면 예측력이 높으며, 이상치(Outlier)가 존재하면 PRESS의 값이 커짐
- 분산분석표를 이용한 모형의 검정
- 잔차분석
오차항에 대한 몇가지 가정을 바탕으로 두고 회귀분석을 진행하였기 때문에, 회귀분석을 하고나서 오차항의 가정에 대한 타당성을 분석해야합니다. 다만 오차는 알수 없기때문에 잔차를 이용해 분석하는데 이를 잔차분석이라고 합니다.
잔차는 서로 독립이 아닐수도 있으며(상관성을 가짐), 분산이 일정하지 않을 수 있습니다. 따라서 오차항과 비슷한 성질을 가지기 위해서 표준화잔차(Standardized Resiudal, r)을 이용하여 잔차분석에 사용하는 것이 좋습니다.
$$ r_i = \frac{e_i}{s\sqrt{1-h_{ii}}}$$
$$(이때, h_{ii} = \frac{1}{n} + \frac{(X_i - \overline{X})^2}{SS_{XX}})$$
주로 QQplot을 이용한 정규성 검정, ($r_i$, $\hat{Y_i}$) 그래프를 이용한 등분산성 확인등이 요구됩니다.
'Statistics' 카테고리의 다른 글
불편성(Unbiasedness)와 일치성(Consistency) (0) | 2024.12.24 |
---|---|
[Categorical Analysis] 1. Generalized Linear Model(일반화 선형 모델) (0) | 2023.12.12 |
[회귀분석] 부분 F 검정 (Partial F Test) (0) | 2023.03.03 |
[회귀분석] 다중선형회귀(Multiple Linear Regression) (0) | 2023.03.03 |