안녕하세요. 이번 포스팅에서는 비율에 대한 구간 추정에 대해 알아보겠습니다.
앞선 평균에 대한 구간 추정 및 두 평균의 차이에 대한 구간 추정과 같이 비율에 대한 구간 추정은 실생활에서 많이 사용되고 있는데요.
선거를 생각해봅시다. 만약 특정 후보자의 실제 지지율이 $p$일때, 여론조사에서 $n$명의 사람을 조사한다고 한다면 투표수 $Y$는 이항분포 $B(n, p)$를 따른다는 할 수 있습니다. 이때, 후보자는 지지율이 51%일때, 지지율에 대한 신뢰 구간에 대해 알고 싶을 수 있습니다. 왜냐하면 지지율의 신뢰구간이 [30%, 72%]랑 [50.5%, 51.5%]인 경우에 전략을 다르게 해야하기 때문입니다.
참고로 아래에서 비율에 대한 추정량으로 $\frac{Y}{n}$을 사용하는데 이는 Maximum Likelihood 기법을 사용해 모수 $p$의 MLE는 $\frac{Y}{n}$임을 보일 수 있기 때문입니다..
1. Wald's Confidence Interval for Proportion
- $p$의 $100(1-\alpha)$% 근사 신뢰구간 : $[\frac{Y}{n} \pm z_{\alpha/2}\sqrt{\frac{y/n(1-y/n)}{n}}]$
- 특정 구간(범주)에 속할 확률을 p라고 하고, Y를 n번의 독립적인 실험에서 특정 구간(범주)에 포함된 횟수라고 가정 (즉, $Y \sim B(n, p)$)
- 간단하지만 많은 논문에서 Wald 신뢰구간의 불안정함을 지적 (대표본인 경우에도)
2. Wilson's Confidence Interval for Proportion
- $p$의 $100(1-\alpha)$% 근사 신뢰구간 : $[\frac{\frac{Y}{n} + \frac{z_{\alpha/2}^2}{2n} \pm z_{\alpha/2}\sqrt{\frac{\frac{y}{n}(1-\frac{y}{n})}{n} + \frac{z_{\alpha/2}^2}{4n^2}}}{1+\frac{z_{\alpha/2}^2}{n}}]$
- 특정 구간(범주)에 속할 확률을 p라고 하고, Y를 n번의 독립적인 실험에서 특정 구간(범주)에 포함된 횟수라고 가정 (즉, $Y \sim B(n, p)$)
- 일반적으로 $z_{\alpha/2}$의 값은 1.645, 1.96, 2.58의 값을 많이 사용하는데, 만약 n의 값이 커질수록 $\frac{z_{\alpha/2}^2}{n}$의 값이 0에 가까워지므로 2번식에서 1번식과 같은 형태가 되는 것을 알 수 있습니다.
- Brown(2001)에 따르면 표본 수가 적은 경우 Wilson 신뢰구간을 추천
3. Agresti-Coull's Confidence Interval for Proportion
- $p$의 $100(1-\alpha)$% 근사 신뢰구간 : $[\tilde{p} + z_{\alpha/2}\sqrt{\frac{\tilde{p}(1-\tilde{p})}{n+z_{\alpha/2}^2}}]$ (단, $\tilde{p} = \frac{Y+\frac{z_{\alpha/2}^2}{2}}{n+z_{\alpha/2}}$)
- 특정 구간(범주)에 속할 확률을 p라고 하고, Y를 n번의 독립적인 실험에서 특정 구간(범주)에 포함된 횟수라고 가정 (즉, $Y \sim B(n, p)$)
- 비율이 양극단에 가까울 때, 불안정한 기존 방식보다 정확한 신뢰구간을 제공합니다.
- 단, 추정량 $\tilde{p}$는 biased estimator 입니다.
4. 두 비율의 차이에 대한 신뢰구간
- $p_1 - p_2$의 $100(1-\alpha)$% 근사신뢰구간 : [$\frac{X}{n} - \frac{Y}{m} \pm z_{\alpha/2}*\sqrt{\frac{X/n(1-X/n)}{n} + \frac{Y/m(1-Y/m)}{m}}$]
- 가정 : 확률변수가 $X \sim B(n, p_1)$, $Y \sim B(m, p_2)$이고 서로 독립일 때
5. 사건이 하나도 일어나지 않을 때, 비율의 추정
- 사건의 확률이 $p=0.001$이고 표본의 크기가 100보다 작은 경우 사건이 하나도 일어나지 않을 확률은 90% 이상으로 확률이 작을수록 사건이 관찰될 가능성은 매우 낮음 (eg. 제조업체의 불량률, 특정 질병에 걸릴 확률)
- 평가 기준으로는 Coverage Probability, Expected Width를 사용하며 식은 아래와 같음 ($L_x, U_x$는 관찰된 성공의 횟수가 x일때 구한 신뢰구간의 하한과 상한을 나타냄)
- $CPr(n, p) = \sum_{x=0}^{n} \binom{n}{x}p^x(1-p)^{n-x}I(L_x \leq p \leq U_x)$
- $EW(n, p) = \sum_{x=0}^{n}\binom{n}{x}p^x(1-p)^{n-x}(U_x - L_x)$
- Relative Margin of error를 $\epsilon_R = \frac{\epsilon}{p^*}$라고 정의할 때, $\epsilon_R$이 [0.1, 0.5]에 포함되도록 허용오차($\epsilon$)과 확률($p^*$)를 조정할 것을 권장하며 이 경우 Wald, Wilson, Agresti-Coull 신뢰구간이 비슷한 특징을 가짐
- $\epsilon_R$이 [0.1, 0.5]에 포함되도록 조정한다면, 이항분포 근사의 좋은 조건 $np^* \geq 5$를 만족함
참고 McGrath & Burke (2024). Binomial confidence intervals for rare events: Importance of defining margin of error relative to magnitude of proportion.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 7-5. Distribution-Free CI for percentile (0) | 2024.03.15 |
---|---|
[확률과 통계적 추론] 7-4. Sample Size (0) | 2024.03.14 |
[확률과 통계적 추론] 7-2. 두개의 평균 차이에 대한 구간추정 (1) | 2024.03.13 |
[확률과 통계적 추론] 7-1. 평균에 대한 구간추정 (3) | 2024.03.06 |
[확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation) (2) | 2024.02.26 |