안녕하세요. 이번 포스팅에서는 분위수의 신뢰구간을 구하는 방법에 대해 알아보겠습니다.
이전 포스팅에서는 모평균, 모비율에 대한 신뢰구간을 구했었는데, 이때 표본의 Underlying Distribution를 가정하였습니다.
(모평균은 정규분포, 혹은 CLT를 적용할때는 심하게 쏠린 형태가 아니라고 가정, 모비율은 이항분포 및 초기하분포 가정)
분포에 대해 가정하고 신뢰구간을 구한 것과 다르게 이번에는 순서통계량을 사용하여 분위수의 신뢰구간을 구합니다.
본문에 앞서, 순서통계량에 관한 포스팅 (https://moogie.tistory.com/125)에서는 Underlying Distribution로 특정 분포를 가정하지 않고 연속형이라는 가정했을 때, 순서통계량 $Y_{(n+1)p}$을 분위수 $\pi_p$의 추정량임을 보일 수 있었습니다. ($r=(n+1)p)$.
만약 중위수에 대한 신뢰구간을 구하기 위해 순서통계량 $Y_1 < Y_2 < Y_3 < Y_4 < Y_5$에 대해 $Pr[Y_1 < m < Y_5]$의 확률은 확률변수 $X_1, X_2, X_3, X_4, X_5$에서 적어도 1개는 중위수 $m$보다 작아야하지만 5개 모두가 중위수 $m$보다 작아서는 안됩니다.
또한, 분포와 상관없이 중위수 $m$에 대해 $Pr(X<m)=0.5$이므로 아래와 같이 확률을 구할 수 있습니다.
위 예시처럼 분포를 정확하게 모르더라도 확률을 구할 수 있습니다. 이처럼 분포에 대해 거의 가정하지 않고 구한 신뢰구간을 Distribution-Free Confidence Interval 라고 부릅니다.
위 예제를 확장해 표본 $X_1, X_2, \cdots, X_n$에 대한 순서통계량 $Y_1 < Y_2 < \cdots < Y_n$이 주어졌을 때, 백분위수 $\pi_p$의 신뢰구간을 $[Y_i, Y_j]$라고 할 때, 해당 구간에 속할 확률은 아래와 같습니다.
$$1-\alpha = P[Y_i < \pi_p < Y_j] = \sum_{k=i}^{j-1} \binom{n}{k}p^k(1-p)^{n-k}$$
따라서 확률구간 $[Y_i, Y_j]$이 $\pi_p$를 포함할 확률은 $100(1-\alpha)$%입니다. (참고로, 표본의 수가 크면 정규근사를 통해서 확률을 구할 수 있습니다)
아래는 제 25번째 분위수의 추정량과 확률구간에 대한 예제입니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 8-1. 가설검정(Tests of Statistical Hypothesis ) (0) | 2024.03.19 |
---|---|
[확률과 통계적 추론] 7-6. 회귀분석 - 신뢰구간과 예측구간 (0) | 2024.03.18 |
[확률과 통계적 추론] 7-4. Sample Size (0) | 2024.03.14 |
[확률과 통계적 추론] 7-3. 비율에 대한 구간추정 (0) | 2024.03.13 |
[확률과 통계적 추론] 7-2. 두개의 평균 차이에 대한 구간추정 (1) | 2024.03.13 |