두 가지 방법으로 모비율의 신뢰구간을 구해봅시다
이 글에서는 Chebyshev 부등식과 Hoeffding 부등식을 사용하여 모비율의 신뢰구간을 구하는 방법을 설명하고, 두 방법의 결과를 비교해보겠습니다.
특히 이항분포의 경우를 중심으로 구체적인 예시와 시뮬레이션 결과를 통해 차이를 확인해 보겠습니다.
1. Chebyshev 부등식
$\varepsilon > 0$이고 확률변수 X의 평균과 분산이 존재할 때, 다음을 만족한다.
$P\big(|X-E[X]| \geq\varepsilon\big) \leq \frac{var(X)}{t^2}$
$X_1, X_2, \ldots, X_n \sim Bernoulli(p)$일때, 표본평균 $\overline{X}=\frac{\sum_i X_i}{n}$은 모비율 $p$의 최대 우도 추정량입니다.
특히 $\mathbb{E}[\overline{X}] = p$, $\mathrm{Var}[\overline{X}] = \frac{p(1-p)}{n}$이므로 Chebyshev부등식에 따라 다음을 만족합니다.
$$P[ \;|\overline{X}-E[\overline{X}]| \geq \varepsilon\;] = P[|\overline{X}-p| \geq \varepsilon] \leq \frac{p(1-p)}{n\varepsilon^2} \leq \frac{1}{4n\varepsilon^2}$$
2. Hoeffding 부등식과 신뢰구간
Hoeffding 부등식은 확률변수들이 독립이고 범위가 제한되어 있을 때 적용할 수 있습니다.
$Y_1, Y_2, \ldots, Y_n$이 서로 독립이고 $E[Y_i]=0$이라고 하자.
$a_i \leq Y_i \leq b_i$, $\varepsilon>0$, $t>0$에 대해 다음을 만족한다.
$P\big( \sum_i Y_i \geq \varepsilon \big) \leq e^{-t\varepsilon} \prod_i e^{t^2(b_i-a_i)^2/8}$
$X_1, X_2, \ldots, X_n \sim Bernoulli(p)$일때, $Y_i = \frac{X_i - p}{n}$이라하면 다음을 만족합니다.
$$E[Y_i]=0 \quad -\frac{p}{n} \leq Y_i \leq \frac{1-p}{n}$$
따라서, Hoeffding 부등식을 적용하면 다음과 같습니다. ($t=4n\varepsilon$)
$$\begin{align}P\big( \sum_i Y_i \geq \varepsilon \big) &= P\big(\overline{X} - p \geq \varepsilon \big) \\ &\leq e^{-t\varepsilon}\prod_i e^{t^2(\frac{1-p}{n}+\frac{p}{n})^2/8} = e^{-t\varepsilon + \frac{t^2}{8n}}\\&=e^{-2n\varepsilon^2}\end{align}$$
$P\big( \sum_i Y_i \leq -\varepsilon \big)$ 역시 같은 결과이기에 다음 식을 얻을 수 있습니다.
$$P\big(| \overline{X} -p| \geq \varepsilon \big) = 2e^{-2n\varepsilon^2}, \quad P\big(| \overline{X} -p| \leq \varepsilon \big) = 1-2e^{-2n\varepsilon^2}$$
이때, 모비율 $p$에 대한 Hoefdding 신뢰구간은 다음과 같으며 $100(1-\alpha)$% 이상의 신뢰도를 보입니다.
$$\bigg[\overline{X}-\sqrt{\frac{\log(2/\alpha)}{2n}}, \overline{X}+\sqrt{\frac{\log(2/\alpha)}{2n}}\bigg]$$
3. 예시 비교
$X_1, X_2, \ldots, X_{25} \sim \text{Bernoulli}(p)$일때, 표본평균에서 모비율 차이의 절댓값이 0.25를 넘을 확률을 구해봅시다.
- Chebyshev 부등식에서
$$P\big(|\overline{X}-p| \geq 0.25 \big) \leq \frac{1}{4*25*0.25^2} = 0.16$$
- Hoeffding 부등식에서는
$$P\big(|\overline{X}-p| \geq 0.25 \big) \leq 2e^{-2*25*0.25^2} = 0.088$$
두 부등식 모두 참이지만, Hoeffding 부등식이 더 sharp한 결과를 제공하는 것을 알 수 있습니다.
4. 시뮬레이션 결과
아래는 Chebyshev 부등식과 Hoeffding 부등식을 비교하는 시뮬레이션 결과입니다. 각 패널은 표본 크기 $n = {5, 10, 25, 100}$에 따른 확률 상한값을 보여줍니다.
- Chebyshev 부등식 (빨간색): 표본 크기가 커질수록 상한값이 점진적으로 감소합니다.
- Hoeffding 부등식 (파란색): 동일한 조건에서 더 빠르게 감소하며 더욱 정밀한 상한값을 제공합니다.
library(tidyverse)
library(extrafont)
theme_set(theme_grey(base_family='NanumGothic'))
bound <- rep(seq(0.001, 1, 0.001),times=4)
tibble(bound=bound, n=rep(c(5,10,25,100), each=1000)) |>
filter(bound>0) |>
mutate(chebyshev = 1/4/n/(bound^2),
hoeffding = 2*exp(-2*n*bound^2)) |>
filter(chebyshev<1, hoeffding<1) |>
pivot_longer(cols=c(chebyshev, hoeffding), names_to = "upper") |>
ggplot(mapping=aes(x=bound, y=value, color=upper)) +
geom_line() + facet_grid(~n) +
ggtitle(latex2exp::TeX("이항분포에서 $P(|\\bar{X}-p|\\leq\\epsilon)$의 최댓값")) + ylab("Probability") + xlab("오차한계")
5. 마무리
Chebyshev 부등식과 Hoeffding 부등식은 모두 확률의 상한을 제공하지만, Hoeffding 부등식이 더 정교하고 엄격한 결과를 제공합니다. 특히 표본 크기가 클수록 그 차이는 더욱 두드러집니다.
이 글에서는 두 부등식을 통해 모비율의 신뢰구간을 계산하고 시뮬레이션을 통해 그 차이를 확인했습니다. Hoeffding 부등식이 더 적합한 이유를 실험적으로 보여주었으니, 실제 데이터 분석에서도 적절한 방법을 선택하는 데 참고하시면 좋겠습니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
표본분산(Sample Variance)의 특징 (0) | 2024.12.22 |
---|---|
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 시뮬레이션 (0) | 2024.12.18 |
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 이론 (1) | 2024.12.17 |
[확률과 통계적 추론] 8-4. 비모수적 검정 (Non-parametric Test) (0) | 2024.03.25 |
[확률과 통계적 추론] 8-3. 비율에 대한 가설검정 (0) | 2024.03.25 |