안녕하세요. 이번 포스팅에서는 회귀분석에서의 신뢰구간과 예측구간에 대해 알아보도록 하겠습니다.
회귀분석을 다른 포스팅은 다수 있으나, 수리통계학에서 다룬 내용은 회귀분석 가정과 계수 추정에 관한 포스팅을 참고 해주시면 좋을 것 같습니다. (링크 : https://moogie.tistory.com/127 )
이전 포스팅에서 구한 회귀계수의 추정치와 분포에 따라서 다음과 같이 분산에 대한 ML 추정량 $\hat{\sigma^2}$는 아래와 같은 분포를 따릅니다.
$$\frac{n\hat{\sigma^2}}{\sigma^2} \sim \chi^2(n-2)$$
위 증명에서 분산의 ML 추정량은 편향추정량(Biased Estimator)이므로 비편향추정량으로 만들기 위해서 $\sum_{i=1}^{n}\frac{(Y_i - \hat{Y_i})^2}{n-2}$로 사용하기도 합니다.
이제 분산의 분포를 알고있으므로 우리가 모르는 모분산대신, ML추정량을 사용하여 추론을 진행할 수 있습니다.
- [가정] $Y = \alpha + \beta(x-\overline{x}) + \varepsilon$ (단, $\varepsilon \sim N(0, \sigma^2)$)
- $\alpha$의 $100(1-\alpha)$% 신뢰구간 : $[\hat{\alpha} \pm t_{\alpha/2}(n-2)\sqrt{\frac{\hat{\sigma}^2}{n-2}}]$
- 기울기 $\beta$의 $100(1-\alpha)$% 신뢰구간 : $[\hat{\beta} \pm t_{\alpha/2}(n-2)\sqrt{\frac{n\hat{\sigma}^2}{(n-2)\sum(x_i-\overline{x})^2}}]$
마지막으로 예측값의 신뢰구간과 예측구간을 구할 수 있습니다.
용어가 헷갈릴 수 있는데, 예측값의 신뢰구간 같은 경우에는 예측값의 평균 $\hat{Y} = \hat{\alpha} + \hat{\beta}(x_{new}-\overline{x})$에 대한 구간을 의미하고요.
예측값의 예측구간은 특정값 $X=x_{new}$로 주어졌을 때, $Y$가 가질수 있는 구간으로 $\hat{\alpha} + \hat{\beta}(x_{new}-\overline{x}) + \varepsilon$에 대한 구간을 의미합니다.
- Confidence Interval : $[\hat{\alpha} + \hat{\beta}(x_{new}-\overline{x}) \pm \sqrt{\frac{RSS}{n-2}(\frac{1}{n} + \frac{(x_{new}-\overline{x})^2}{\sum(x_i - \overline{x})^2})} ]$
- Prediction Interval : $[\hat{\alpha} + \hat{\beta}(x_{new}-\overline{x}) \pm \sqrt{\frac{RSS}{n-2}(1+\frac{1}{n} + \frac{(x_{new}-\overline{x})^2}{\sum(x_i - \overline{x})^2})} ]$
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 8-2. 평균에 대한 가설 검정 (0) | 2024.03.21 |
---|---|
[확률과 통계적 추론] 8-1. 가설검정(Tests of Statistical Hypothesis ) (0) | 2024.03.19 |
[확률과 통계적 추론] 7-5. Distribution-Free CI for percentile (0) | 2024.03.15 |
[확률과 통계적 추론] 7-4. Sample Size (0) | 2024.03.14 |
[확률과 통계적 추론] 7-3. 비율에 대한 구간추정 (0) | 2024.03.13 |