[확률과 통계적 추론] 7-3. 비율에 대한 구간추정

2024. 3. 13. 13:52·Statistics/Mathmetical Statistics

 

안녕하세요. 이번 포스팅에서는 비율에 대한 구간 추정에 대해 알아보겠습니다.

 

앞선 평균에 대한 구간 추정 및 두 평균의 차이에 대한 구간 추정과 같이 비율에 대한 구간 추정은 실생활에서 많이 사용되고 있는데요.

선거를 생각해봅시다. 만약 특정 후보자의 실제 지지율이 $p$일때, 여론조사에서 $n$명의 사람을 조사한다고 한다면 투표수 $Y$는 이항분포 $B(n, p)$를 따른다는 할 수 있습니다. 이때, 후보자는 지지율이 51%일때, 지지율에 대한 신뢰 구간에 대해 알고 싶을 수 있습니다. 왜냐하면 지지율의 신뢰구간이 [30%, 72%]랑 [50.5%, 51.5%]인 경우에 전략을 다르게 해야하기 때문입니다.

 

참고로 아래에서 비율에 대한 추정량으로 $\frac{Y}{n}$을 사용하는데 이는 Maximum Likelihood 기법을 사용해 모수 $p$의 MLE는 $\frac{Y}{n}$임을 보일 수 있기 때문입니다.. 

 

 

1. Wald's Confidence Interval for Proportion

  • $p$의 $100(1-\alpha)$% 근사 신뢰구간 : $[\frac{Y}{n} \pm z_{\alpha/2}\sqrt{\frac{y/n(1-y/n)}{n}}]$
  • 특정 구간(범주)에 속할 확률을 p라고 하고, Y를 n번의 독립적인 실험에서 특정 구간(범주)에 포함된 횟수라고 가정 (즉, $Y \sim B(n, p)$)

  • 간단하지만 많은 논문에서 Wald 신뢰구간의 불안정함을 지적 (대표본인 경우에도)

 

 

2. Wilson's Confidence Interval for Proportion

  • $p$의 $100(1-\alpha)$% 근사 신뢰구간 : $[\frac{\frac{Y}{n} + \frac{z_{\alpha/2}^2}{2n} \pm z_{\alpha/2}\sqrt{\frac{\frac{y}{n}(1-\frac{y}{n})}{n} + \frac{z_{\alpha/2}^2}{4n^2}}}{1+\frac{z_{\alpha/2}^2}{n}}]$
  • 특정 구간(범주)에 속할 확률을 p라고 하고, Y를 n번의 독립적인 실험에서 특정 구간(범주)에 포함된 횟수라고 가정 (즉, $Y \sim B(n, p)$)

  • 일반적으로 $z_{\alpha/2}$의 값은 1.645, 1.96, 2.58의 값을 많이 사용하는데, 만약 n의 값이 커질수록 $\frac{z_{\alpha/2}^2}{n}$의 값이 0에 가까워지므로 2번식에서 1번식과 같은 형태가 되는 것을 알 수 있습니다.
  • Brown(2001)에 따르면 표본 수가 적은 경우 Wilson 신뢰구간을 추천

 

 

3. Agresti-Coull's Confidence Interval for Proportion

  •  $p$의 $100(1-\alpha)$% 근사 신뢰구간 : $[\tilde{p} + z_{\alpha/2}\sqrt{\frac{\tilde{p}(1-\tilde{p})}{n+z_{\alpha/2}^2}}]$    (단, $\tilde{p} = \frac{Y+\frac{z_{\alpha/2}^2}{2}}{n+z_{\alpha/2}}$)
  • 특정 구간(범주)에 속할 확률을 p라고 하고, Y를 n번의 독립적인 실험에서 특정 구간(범주)에 포함된 횟수라고 가정 (즉, $Y \sim B(n, p)$)
  • 비율이 양극단에 가까울 때, 불안정한 기존 방식보다 정확한 신뢰구간을 제공합니다.
  • 단, 추정량 $\tilde{p}$는 biased estimator 입니다.

 

 

4. 두 비율의 차이에 대한 신뢰구간

  • $p_1 - p_2$의 $100(1-\alpha)$% 근사신뢰구간 : [$\frac{X}{n} - \frac{Y}{m} \pm z_{\alpha/2}*\sqrt{\frac{X/n(1-X/n)}{n} + \frac{Y/m(1-Y/m)}{m}}$]
  • 가정 : 확률변수가 $X \sim B(n, p_1)$, $Y \sim B(m, p_2)$이고 서로 독립일 때

 

 

5. 사건이 하나도 일어나지 않을 때, 비율의 추정

  • 사건의 확률이 $p=0.001$이고 표본의 크기가 100보다 작은 경우 사건이 하나도 일어나지 않을 확률은 90% 이상으로 확률이 작을수록 사건이 관찰될 가능성은 매우 낮음 (eg. 제조업체의 불량률, 특정 질병에 걸릴 확률) 
  •  평가 기준으로는 Coverage Probability, Expected Width를 사용하며 식은 아래와 같음 ($L_x, U_x$는 관찰된 성공의 횟수가 x일때 구한 신뢰구간의 하한과 상한을 나타냄) 
    • $CPr(n, p) = \sum_{x=0}^{n} \binom{n}{x}p^x(1-p)^{n-x}I(L_x \leq p \leq U_x)$
    • $EW(n, p) = \sum_{x=0}^{n}\binom{n}{x}p^x(1-p)^{n-x}(U_x - L_x)$
  • Relative Margin of error를 $\epsilon_R = \frac{\epsilon}{p^*}$라고 정의할 때, $\epsilon_R$이 [0.1, 0.5]에 포함되도록 허용오차($\epsilon$)과 확률($p^*$)를 조정할 것을 권장하며 이 경우 Wald, Wilson, Agresti-Coull 신뢰구간이 비슷한 특징을 가짐
    • $\epsilon_R$이 [0.1, 0.5]에 포함되도록 조정한다면, 이항분포 근사의 좋은 조건 $np^* \geq 5$를 만족함

 

참고 McGrath & Burke (2024). Binomial confidence intervals for rare events: Importance of defining margin of error relative to magnitude of proportion.

'Statistics > Mathmetical Statistics' 카테고리의 다른 글

[확률과 통계적 추론] 7-5. Distribution-Free CI for percentile  (0) 2024.03.15
[확률과 통계적 추론] 7-4. Sample Size  (0) 2024.03.14
[확률과 통계적 추론] 7-2. 두개의 평균 차이에 대한 구간추정  (1) 2024.03.13
[확률과 통계적 추론] 7-1. 평균에 대한 구간추정  (3) 2024.03.06
[확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation)  (2) 2024.02.26
'Statistics/Mathmetical Statistics' 카테고리의 다른 글
  • [확률과 통계적 추론] 7-5. Distribution-Free CI for percentile
  • [확률과 통계적 추론] 7-4. Sample Size
  • [확률과 통계적 추론] 7-2. 두개의 평균 차이에 대한 구간추정
  • [확률과 통계적 추론] 7-1. 평균에 대한 구간추정
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[확률과 통계적 추론] 7-3. 비율에 대한 구간추정
상단으로

티스토리툴바