안녕하세요. 이번 포스팅에서는 평균에 대한 구간 추정에 대해 알아보겠습니다.
그동안 모집단의 평균(혹은 분포)가 주어진 것과 다르게 실생활에서는 모집단의 평균이 무슨 값인지 알기 어렵습니다. 예를 들면, 후보자에 대한 지지율, 전구의 평균 수명, 공정라인의 불량률, 혹은 대학생의 평균 키와 같은 경우입니다. 앞 예시에서 실제 평균 값은 바로 구하기 어려운데요. 이는 시간에 따라서 실제 평균이 달라지기도 하지만, 전구의 평균 수명을 구하기 위해 모든 전구를 조사할 수도 없는 노릇이기 때문입니다.
따라서, 저희는 표본을 통해서 평균을 추정해야 하고 MLE(6-3, https://moogie.tistory.com/126)를 통해서 모수에 대한 좋은 추정치를 제공할 수 있음을 알고 있습니다. 다만 MLE를 통한 추정치는 점 추정치(Point Estimation)로 이번 포스팅에서 알아볼 구간 추정과는 차이가 있습니다.
1. Underlying PDF가 $X \sim N(\mu, \sigma^2)$이고 모분산을 알고 있는 경우
- $100(1-\alpha)$% 신뢰구간 : $[\overline{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}]$
- 위 Random Interval(확률 구간)은 미지의 평균 $\mu$ 를 포함할 확률이 $1-\alpha$ 입니다.
- $z_{\alpha} : Pr[Z>z_{\alpha}] = \alpha$
2. Underlying PDF의 정규성을 가정할 수 없으나, 대표본인 경우
- (모분산이 알려진 경우) $100(1-\alpha)$% 근사 신뢰구간 : $[ \overline{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} ]$
- (모분산을 모르는 경우) $100(1-\alpha)$% 근사 신뢰구간 : $[ \overline{X} - z_{\alpha/2} \frac{S}{\sqrt{n}}, \overline{X} + z_{\alpha/2} \frac{S}{\sqrt{n}} ]$
- 위 Random Interval(확률 구간)은 미지의 평균 $\mu$ 를 포함할 확률은 근사적으로 $1-\alpha$ 입니다.
- 모분산을 모르는 경우에는 $z_{\alpha/2}$ 대신 $t_{\alpha/2}(n-1)$ 을 사용해도 됩니다.
- 중심극한정리(CLT) 통해 모집단의 분포와 상관없이 대표본(n > 50)일 때, 표본평균이 정규분포를 따른다는 점을 이용합니다.
- Underlying Distribution이 unimodal, symmetric, continuous인 경우 좋은 추정을 제공합니다.
3. Underlying PDF가 $X \sim N(\mu, \sigma^2)$이지만 모분산을 알지 못하는 경우
- $100(1-\alpha)$% 신뢰구간 : $[ \overline{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}, \overline{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}} ]$
- 위 Random Interval(확률 구간은) 미지의 평균 $\mu$ 를 포함할 확률이 $1-\alpha$ 입니다.
- 모분산을 알고 있지 않으므로 표본분산($S^2$)을 이용합니다. (표본분산은 모분산의 비편향추정량)
- 정규성을 만족하는 경우 $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$, 표본평균($\overline{X}$)와 표본분산($S^2$)이 서로 독립인 점에서 T분포의 정의를 통해 $T = \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim T(n-1)$인 점을 이용 (참고 : https://moogie.tistory.com/119)
아래 코드는 자유도가 2인 카이제곱분포로 부터 100개의 표본을 추출해 평균과 분산을 구해, CLT를 사용한 신뢰구간을 시각화 한 결과입니다. (자유도가 2인 카이제곱분포이므로, 모평균은 2입니다)
카이제곱분포는 대칭적이지 않고 오른쪽으로 긴 꼬리를 가진 분포이므로 95%보다 낮게 나오는 경우가 더 많습니다.
get_interval <- function(data, alpha=0.05){
n <- length(data)
avg <- mean(data)
std <- sd(data)
interval = c(avg + qnorm(c(alpha/2, 1-alpha/2))*std/sqrt(n))
return(interval)}
tibble(times = 1:1000) %>%
mutate(data = map(times, ~rchisq(100, df=2)),
interval = map(data, ~get_interval(.))) %>%
mutate(flag = map_lgl(interval, .f=function(itv){
between(x=2, left = itv[1], right = itv[2])})) %>%
summarise(avg = mean(flag))
tibble(times = 1:100) %>%
mutate(data = map(times, ~rchisq(100, df=2)),
lower = map_dbl(data, ~get_interval(.)[1]),
upper = map_dbl(data, ~get_interval(.)[2])) %>%
ggplot(mapping=aes(x=times)) +
geom_errorbar(mapping=aes(ymin=lower, ymax = upper)) +
geom_hline(yintercept = 2, color = "red")
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 7-3. 비율에 대한 구간추정 (0) | 2024.03.13 |
---|---|
[확률과 통계적 추론] 7-2. 두개의 평균 차이에 대한 구간추정 (1) | 2024.03.13 |
[확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation) (2) | 2024.02.26 |
[확률과 통계적 추론] 6-6.2 충분통계량과 지수족, Rao-Blackwell 정리 (0) | 2024.02.23 |
[확률과 통계적 추론] 6-6.1 Sufficient Statistics (충분통계량) (0) | 2024.02.22 |