안녕하세요. 이번 포스팅에서는 정규분포를 따르는 확률변수들의 통계량(Statistics)인 표본평균과 표본분산의 관계를 살펴보려고 합니다.
0. Overview
이번 포스팅에서 사용할 통계량의 정의는 아래와 같습니다.
- [정의 - 표본평균] $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i$
- [정의 - 표본분산] $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$
또한, 위에서 정의한 통계량에서 확률변수 $X_1, X_2, \cdots, X_n$은 정규분포 $N(\mu, \sigma^2)$을 따르는 크기가 n인 임의표본(Random Sample)임을 가정한다면 아래와 같은 결론을 도출할 수 있습니다.
- 표본평균($\overline{X}$)와 표본분산($S^2$)은 서로 독립이다. ($=Cov(\overline{X}, S^2) = 0$)
- $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$
1. 정의(Definition)
우선 표본평균은 임의표본에 있는 모든 확률변수의 합을 확률변수의 개수로 나눠준 통계량으로 실생활에서 사용하는 평균과 비슷하기에 표본평균의 정의를 받아들이기에는 어렵지 않을 것으로 생각됩니다.
다만 표본분산의 경우에는 $n$개의 확률변수가 있는데 $n-1$로 나누는지 의문을 가지는 분들이 어느정도 있는 것 같습니다. 추후에 다루기는 하겠지만 간단하게 설명하자면 $n-1$로 나눈 경우가 실제 분산과 더 유사하기 때문입니다. 실제로 모분산을 추정하는 여러가지 통계량을 생성할 수 있는데 $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$인 경우 기댓값 $E(S^2)$이 모분산($\sigma^2$)과 같은 불편추정량의 성질을 가지기 때문입니다.
또한 자유도(Degree of Freedom)의 관점에서는 $n$개의 확률변수를 사용할 수 있는데 식에 sample mean을 사용하기 때문에 자유도 1이 빠진 $n-1$을 사용한다고 생각할 수 있습니다.
(* 모분산은 $n$으로 나누는 것이 맞으며 비편향추정량임을 증명한 포스팅 https://moogie.tistory.com/126를 참고해주세요)
2. 결론과 증명
표본평균과 표본분산은 모두 동일한 확률변수 $X_1, X_2, \sim, X_n$를 모두 사용한 통계량인데 어떻게 연관되어 있지 않고 서로 독립일 수 있냐고 물어볼 수 있습니다!
아주 좋은 질문입니다. 저 역시 한때 수리통계학을 배울 때 궁금했었던 내용인데요. 자세한 증명은 분해정리(Factorization Theorem)와 충분통계량 혹은 다변량 변수의 결합분포에 사용하는 자코비안 행렬(Jacobian Matrix)를 사용해야하는데 이전 포스팅에서 다루지 않아서 추후에 다뤄보도록 하겠습니다. 우선은 이변량 분포의 결합분포에서 다루었던 것 처럼(https://moogie.tistory.com/112) 서로 독립인 확률변수들을 사용해 새로운 확률변수를 정의했을 때, 두 확률변수가 서로 독립일 수 있다는 것만 체크해놓도록 합시다.
그러므로, $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$를 만족하하는 것만 증명하도록 하겠습니다.
마지막 줄이 성립하는 이유는 표본평균과 표본분산이 서로 독립이라고 받아들이고 서로 독립인 카이제곱을 따르는 확률변수의 합은 자유도를 합한 카이제곱 분포를 따르기 때문입니다. (https://moogie.tistory.com/116의 3번 참고)
또한, 아래와 같이 모평균을 사용했을 때와 표본평균을 사용했을 때의 표준화 변수의 제곱의 합은 카이제곱분포를 따르지만 자유도가 다른 것을 체크하면 좋을 것 같습니다.
- $\sum_{i=1}^{n} \frac{(X_i - u)^2}{\sigma^2} \sim \chi^2(n)$
- $\sum_{i=1}^{n} \frac{(X_i - \overline{X})^2}{\sigma^2} \sim \chi^2(n-1)$
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 10. 분포 정리 (0) | 2024.01.16 |
---|---|
[확률과 통계적 추론] 5-5.3 T 분포 (T Distribution) (0) | 2024.01.15 |
[확률과 통계적 추론] 5-5.1 정규분포와 관련한 함수 (0) | 2024.01.15 |
[확률과 통계적 추론] 5-4. 적률생성함수 기법 (2) | 2024.01.11 |
[확률과 통계적 추론] 5-3. 확률표본(Random Sample) (1) | 2024.01.10 |