0. 개요
안녕하세요. 이번 포스팅에서는 중심극한정리를 이용한 이산형 변수의 근사값을 계산하는 방법에 대해 알아보겠습니다.
사실 중심극한정리는 연속형(Continuous) 변수에만 적용되는 것이 아니기 때문에 이산형 변수에도 적용이 가능합니다.
통계에서는 너무 중요한 정리이므로 중심극한정리의 개념을 다시 한번 살펴봅시다.
1. 중심극한정리(Central Limit Theorem, CLT)
[개념] 만약 $\overline{X}$가 유한한 평균 $\mu$와 유한한 분산 $\sigma^2$을 가지는 분포로부터 생성된 임의표본 $X_1, X_2, \cdots, X_n$의 표본평균이고, 표본의 수 $n$이 무한대로 발산한다면 표준화된 변수 $\frac{\overline{X}-\mu}{\sigma / \sqrt{n}}$은 정규분포 $N(0, 1)$을 따른다.
$$W = \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} = \frac{\sum_{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma} \sim N(0, 1)$$
2. 이항분포와 중심극한정리
확률변수 $Y$가 이항분포 $B(n,p)$를 따른다면 확률변수 $Y$는 독립적인 베르누이 시행의 결과인 $X_1, X_2, \cdots, X_n$의 합으로 표현이 가능합니다. 또한 베르누이 분포 $Bernoulli(p)$의 기댓값과 분산은 각각 $p$, $p(1-p)$이고 $Y = \sum_{i=1}^{n}X_i$이므로 중심극한정리에 따라 $n$이 무한대로 발산한다면 다음이 성립할 것입니다.
$$ \frac{Y-np}{\sqrt{np(1-p)}} = \frac{\sum_{i=1}^{n}X_i-np}{\sqrt{np(1-p)}} \sim N(0, 1)$$
따라서 이항분포를 따르는 확률변수 $Y$는 근사적으로 정규분포 $N(np, np(1-p))$를 따릅니다.
3. 확률의 정의
이산형 확률변수와 연속형 확률변수의 확률함수에서 확률을 정의하는 방법은 조금씩 다릅니다.
이산형 확률변수 경우에는 표본공간(S)이 셀 수 있는 값으로 구성되어 있으므로 특정 값이 뽑힐 확률을 확률질량함수(PMF)로 하고 있습니다. 반면에 연속형 확률변수는 표본공간(S)이 셀 수 없는 값 혹은 구간으로 구성되어 있으므로 특정 값이 선택될 확률을 0으로 가정합니다.
- 확률질량함수(PMF) : $f_X(x) = Pr[X=x]$
- 확률밀도함수(PDF) : $f_X(x) \neq Pr[X=x]$
특정값의 확률을 0으로 정의하는 연속형 확률변수는 특정 구간 $[a, b]$에 속할 확률을 다음과 같이 정의할 수 있습니다.
- $Pr[a \leq x \leq b] = \int_{a}^{b}f_X(x)dx$
4. 연속성수정 (Continuity Correction)
저희는 2. 이항분포와 중심극한정리에서 이항분포를 정규분포로 근사할 수 있다는 것을 알았습니다. 즉 확률변수가 $X \sim B(n, p)$일때, 근사적으로 $X \sim N(np, np(1-p))$를 만족한다는 것이죠. 그렇다면 이산형 확률변수 $X$의 값이 5일 확률 $Pr[X=5]$를 근사한 정규분포로 어떻게 구한다는 것일까요?라는 물음에 앞에서 연속형 확률변수가 특정 값을 가질 확률은 0이라고 하지 않나?라는 생각이 들었다면 정말 훌륭합니다. 이산형/연속형 확률함수의 개념을 정확하게 알고 있네요!
이때 $Pr[X=5]$의 값은 이항분포의 확률질량함수 $f_X(5)$값과 동일하죠. 이는 $f_X(5) * 1$로 표현할 수 있으므로 높이가 $f_X(5)$이고 너비가 1인 직사각형의 넓이로 생각할 수 있습니다. 즉 이항분포의 확률질량함수를 막대그래프로 나타낸다면 특정 값 $k$을 가질 확률은 밑변이 [k-0.5, k+0.5]로 길이가 1이고 높이가 $f_X(k)$인 직사각형의 넓이이죠.
이때 중심극한정리로 근사된 정규분포 이론적으로 분포가 유사하므로 해당 구간의 너비를 구하면 비슷한 넓이를 가질 것 입니다. 즉,
$$Pr[X=k] \approx Pr[k-0.5 \leq x \leq k+0.5] = \int_{k-0.5}^{k+0.5}f_X(x)dx $$
이를 Half-unit correction for Continuity라고 하며 간단하게 연속성수정(Continuity Correction)이라고 합니다.
5. 예시
이항분포 $B(9, \frac{2}{3})$를 따르는 확률변수 $X$ 근사적으로 정규분포 $N(6, 2)$를 따르므로 $Pr[X=3]$일 확률과 연속성 수정을 이용한 근삿값은 아래와 같습니다.
- 실제값 : $Pr[X=3] = \begin{pmatrix}
9 \\ 3
\end{pmatrix} (\frac{2}{3})^3(\frac{1}{3})^7 = 0.03414114$ - 근삿값 : $Pr[X=3] \approx Pr[3-0.5 \leq X \leq 3+0.5] = Pr[\frac{3-0.5-6}{\sqrt{2}} \leq Z \leq \frac{3+0.5-6}{\sqrt{2}}] = 0.03188577$
또한 아래와 같이 $X \sim B(10, 0.5)$인 경우 근사적으로 $N(5, 2.5)$를 따르므로 아래와 같이 실제값과 근삿값을 계산하면 됩니다.
다만, 이산형 확률변수는 특정값을 포함하는 경우와 포함하지 않는 경우 계산에서 큰 차이가 나므로 주의하기 바랍니다.

'Statistics > Mathmetical Statistics' 카테고리의 다른 글
| [확률과 통계적 추론] 6-1. 기술통계량과 탐색적 데이터 분석 (2) | 2024.02.07 |
|---|---|
| [확률과 통계적 추론] 5-8. Chebyshev's Inequality (체비쇼프 부등식) (0) | 2024.01.21 |
| [확률과 통계적 추론] 5-6. 중심극한정리(Central Limit Theorem) (0) | 2024.01.19 |
| [확률과 통계적 추론] 10. 분포 정리 (0) | 2024.01.16 |
| [확률과 통계적 추론] 5-5.3 T 분포 (T Distribution) (0) | 2024.01.15 |