[확률과 통계적 추론] 5-5.2 표본평균과 표본분산 관계 with Normal distribution

2024. 1. 15. 18:36·Statistics/Mathmetical Statistics

 

 

안녕하세요. 이번 포스팅에서는 정규분포를 따르는 확률변수들의 통계량(Statistics)인 표본평균과 표본분산의 관계를 살펴보려고 합니다.

 

0. Overview

이번 포스팅에서 사용할 통계량의 정의는 아래와 같습니다.

  • [정의 - 표본평균] $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i$
  • [정의 - 표본분산] $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$

 

또한, 위에서 정의한 통계량에서 확률변수 $X_1, X_2, \cdots, X_n$은 정규분포 $N(\mu, \sigma^2)$을 따르는 크기가 n인 임의표본(Random Sample)임을 가정한다면 아래와 같은 결론을 도출할 수 있습니다.

  • 표본평균($\overline{X}$)와 표본분산($S^2$)은 서로 독립이다. ($=Cov(\overline{X}, S^2) = 0$)
  • $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

 

 

1. 정의(Definition)

우선 표본평균은 임의표본에 있는 모든 확률변수의 합을 확률변수의 개수로 나눠준 통계량으로 실생활에서 사용하는 평균과 비슷하기에 표본평균의 정의를 받아들이기에는 어렵지 않을 것으로 생각됩니다.

다만 표본분산의 경우에는 $n$개의 확률변수가 있는데 $n-1$로 나누는지 의문을 가지는 분들이 어느정도 있는 것 같습니다. 추후에 다루기는 하겠지만 간단하게 설명하자면 $n-1$로 나눈 경우가 실제 분산과 더 유사하기 때문입니다. 실제로 모분산을 추정하는 여러가지 통계량을 생성할 수 있는데  $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$인 경우 기댓값 $E(S^2)$이 모분산($\sigma^2$)과 같은 불편추정량의 성질을 가지기 때문입니다.

또한 자유도(Degree of Freedom)의 관점에서는 $n$개의 확률변수를 사용할 수 있는데 식에 sample mean을 사용하기 때문에 자유도 1이 빠진 $n-1$을 사용한다고 생각할 수 있습니다.

(* 모분산은 $n$으로 나누는 것이 맞으며 비편향추정량임을 증명한 포스팅 https://moogie.tistory.com/126를 참고해주세요)

 

 

2. 결론과 증명

표본평균과 표본분산은 모두 동일한 확률변수 $X_1, X_2, \sim, X_n$를 모두 사용한 통계량인데 어떻게 연관되어 있지 않고 서로 독립일 수 있냐고 물어볼 수 있습니다!

아주 좋은 질문입니다. 저 역시 한때 수리통계학을 배울 때 궁금했었던 내용인데요. 자세한 증명은 분해정리(Factorization Theorem)와 충분통계량 혹은 다변량 변수의 결합분포에 사용하는 자코비안 행렬(Jacobian Matrix)를 사용해야하는데 이전 포스팅에서 다루지 않아서 추후에 다뤄보도록 하겠습니다. 우선은 이변량 분포의 결합분포에서 다루었던 것 처럼(https://moogie.tistory.com/112) 서로 독립인 확률변수들을 사용해 새로운 확률변수를 정의했을 때, 두 확률변수가 서로 독립일 수 있다는 것만 체크해놓도록 합시다.

 

그러므로, $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$를 만족하하는 것만 증명하도록 하겠습니다.

 

마지막 줄이 성립하는 이유는 표본평균과 표본분산이 서로 독립이라고 받아들이고 서로 독립인 카이제곱을 따르는 확률변수의 합은 자유도를 합한 카이제곱 분포를 따르기 때문입니다. (https://moogie.tistory.com/116의 3번 참고)

 

또한, 아래와 같이 모평균을 사용했을 때와 표본평균을 사용했을 때의 표준화 변수의 제곱의 합은 카이제곱분포를 따르지만 자유도가 다른 것을 체크하면 좋을 것 같습니다.

  • $\sum_{i=1}^{n} \frac{(X_i - u)^2}{\sigma^2} \sim \chi^2(n)$
  • $\sum_{i=1}^{n} \frac{(X_i - \overline{X})^2}{\sigma^2} \sim \chi^2(n-1)$

 

'Statistics > Mathmetical Statistics' 카테고리의 다른 글

[확률과 통계적 추론] 10. 분포 정리  (0) 2024.01.16
[확률과 통계적 추론] 5-5.3 T 분포 (T Distribution)  (0) 2024.01.15
[확률과 통계적 추론] 5-5.1 정규분포와 관련한 함수  (0) 2024.01.15
[확률과 통계적 추론] 5-4. 적률생성함수 기법  (2) 2024.01.11
[확률과 통계적 추론] 5-3. 확률표본(Random Sample)  (1) 2024.01.10
'Statistics/Mathmetical Statistics' 카테고리의 다른 글
  • [확률과 통계적 추론] 10. 분포 정리
  • [확률과 통계적 추론] 5-5.3 T 분포 (T Distribution)
  • [확률과 통계적 추론] 5-5.1 정규분포와 관련한 함수
  • [확률과 통계적 추론] 5-4. 적률생성함수 기법
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[확률과 통계적 추론] 5-5.2 표본평균과 표본분산 관계 with Normal distribution
상단으로

티스토리툴바