0. 개요
안녕하세요. 이번 포스팅에서는 저번 포스팅에서 다룬 Maximum Likelihood Estimation을 회귀분석에 적용하여 추정량과 성질에 대해 알아보겠습니다. 사실 작년 초에 회귀분석에 대해 다룬 포스팅들이 다수 있고, 최근에는 R에서 Tidymodels 패키지를 활용해서 회귀모델을 적합하기도 했었는데요. 이번에는 통계학의 관점에서 회귀분석 모델의 추정량에 관한 성질을 알아보기에 상당히 재미있었습니다.
1. 회귀모형의 가정
모델링은 설명변수의 값이 주어졌을 때, 반응변수의 값을 모형 $E[Y|X] = u(X)$을 통해서 적합해 두 변수의 관계를 추론하거나 예측하는 과정을 포함하고 있는데요. 오늘 알아볼 선형회귀모형은 기본적으로 두 변수($X, Y$)의 관계를 $Y=\alpha+\beta X+\epsilon$ 와 같이 선형적으로 생각할 수 있을 때 사용할 수 있습니다. 따라서 선형모델의 모수에 해당하는 $\alpha$, $\beta$를 MLE로 추정한다면 설명변수가 $X=x$와 같이 특정값으로 주어졌을 때, 설명변수 $Y$를 예측할 수 있게 됩니다.
- Assumption : 설명변수와 반응변수는 선형적이며 오차항 $\epsilon$는 서로 독립적이고 분산이 $\sigma^2$인 정규분포를 따른다.
- Model : $Y = \alpha + \beta X + \epsilon$ (단, $\epsilon \sim N(0, \sigma^2)$)
- Prediction : $\hat{Y} = E[Y|X=x] = \hat{\alpha} + \hat{\beta}x$
위에서 모델의 형태를 선형적으로 가정했으므로 독립적인 데이터 $(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$을 가지고 모델의 파라미터 $\alpha, \beta$를 추정해야합니다. 모수 그 자체는 Randomness를 가지고 있지 않으므로 분포를 가지고 있지 않습니다.
그러므로 모수를 알고 있다면, $X=x$가 주어졌을 때 $Y$의 분포는 $Y|X=x \sim N(\alpha+\beta x, \sigma^2)$을 만족합니다.
2. 모수의 추정
위에서 설명변수가 주어졌을 때, 반응변수의 분포를 알고있으므로 저번 포스팅에서 정리한 MLE를 사용하면 아래와 같이 유도가 가능합니다.

따라서 ML Estimation을 사용하여 추정한 절편과 기울기, 분산의 추정량은 아래와 같습니다.
(참고로, 분산의 경우 최소제곱법을 사용한 추정량과 MLE를 사용한 추정량이 다릅니다.)
- $\hat{\alpha} = \overline{Y} - \hat{\beta}\overline{x}$
- $\hat{\beta} = \frac{\sum(Y_i - \overline{Y})(x_i - \overline{x})}{\sum(x_i-\overline{x})^2}$
- $\hat{\sigma^2} = \frac{1}{n} \sum(Y_i - \hat{Y_i})^2$
3. 회귀계수 추정량의 분포
또한, 추정량은 Randomness를 가지는 확률변수이므로 모수와 다르게 분포를 아래와 같이 구할 수 있습니다.
- $\hat{ \alpha} \sim N(\alpha, \sigma^2(\frac{1}{n} + \frac{\overline{x}^2}{\sum(x_i-\overline{x})^2}))$
- $\hat{ \beta} \sim N(\beta, \frac{\sigma^2}{\sum(x_i-\overline{x})^2})$
증명은 $Y = \alpha^{*} + \beta(x-\overline{x}) + \epsilon$라고 생각했을 때 구한 모수의 추정량을 사용하여 얻을 수 있습니다.
그리고 증명에서는 $\alpha^{*}$의 추정량의 분포가 나와있는데 $\alpha = \alpha^{*} - \beta \overline{x}$ 와 $\hat{\alpha^{*}}$와 $\hat{\beta}$이 서로 독립임을 이용하여 얻을 수 있습니다..
(단, $\hat{\alpha}$와 $\hat{\beta}$은 독립이 아닙니다.)

'Statistics > Mathmetical Statistics' 카테고리의 다른 글
| [확률과 통계적 추론] 6-6.1 Sufficient Statistics (충분통계량) (0) | 2024.02.22 |
|---|---|
| [확률과 통계적 추론] 6-5. MLE의 점근 분포(Asymptotic Distribution) (0) | 2024.02.21 |
| [확률과 통계적 추론] 6-3. Maximum likelihood Estimation (최대가능도추정) (0) | 2024.02.13 |
| [확률과 통계적 추론] 6-2. 순서통계량(Order Statistics) (1) | 2024.02.08 |
| [확률과 통계적 추론] 6-1. 기술통계량과 탐색적 데이터 분석 (2) | 2024.02.07 |