안녕하세요. 이번 포스팅에서는 충분통계량(Sufficient Statistics)에 대해 알아보겠습니다.
1. 충분통계량(Sufficient Statistics)
충분통계량은 확률변수 $X_1, X_2, \cdots, X_n$의 Joint PDF $f(x_1, x_2, \cdots, x_n | \theta_1, \cdots, \theta_k)$ 일때, 조건부 분포 $(X_1, X_2, \cdots, X_n | u(X_1, X_2, \cdots, X_n))$가 모수 $(\theta_1, \theta_2, \cdots, \theta_k)$에 의존하지 않는다면 통계량 $u(X_1, X_2, \cdots, X_n)$은 모수의 (결합, Joint) 충분통계량이라고 합니다.
- 충분통계량 $Y = u(X_1, X_2, \cdots, X_n)$가 주어진 조건부 결합확률분포 $(X_1, X_2, \cdots, X_n | Y)$는 모수에 의존하지 않는다.
즉 결합확률분포가 모수에 대한 정보를 담고 있었는데, 충분통계량이 주어졌을 때 결합확률분포가 더 이상은 모수에 대한 정보를 가지고 있지 않으므로 충분통계량 $u(X_1, X_2, \cdots, X_n)$은 모수에 대한 정보를 가진 통계량으로 모수 추정에 있어서 데이터 축소의 효과를 가지고 있다고 봅니다.
아래 예시와 같이 베르누이 분포를 따르는 서로 독립적인 Random Sample이 있을때, 확률변수의 합은 $Y \sim B(n,p)$를 만족합니다.
아래에서 배울 Factorization Theorem에 따라 $Y = \sum X_i$은 모수 $p$의 충분통계량임을 보일 수 있습니다.
이때 Random Sample의 Joint PDF는 원래 모수 $p$를 포함하고 있으나, 충분통계량 $Y$가 주어졌을 때의 조건부 분포는 모수 $p$를 포함하지 않는다는 것을 확인하면 좋을 것 같습니다.
2. Factorization Theorem
또한 충분통계량은 Fisher-Neyman Factorization theorem(피셔-네이만 인수분해정리)에 많이 사용되고 있습니다.
(인수분해정리) 확률변수 $X_1, X_2, \cdots, X_n$이 모수 $\theta$에 의존하는 결합확률분포 $f(x_1, x_2, \cdots, x_n | \theta)$를 따를 때,
아래 식을 만족하는 통계량 $Y=u(X_1, X_2, \cdots, X_n)$은 모수 $\theta$에 대해 충분성을 만족한다.
(단, $\phi$는 $u(x_1, x_2, \cdots, x_n)$을 통해서만 $x_1, x_2, \cdots, x_n$에 의존하고 $u(x_1, x_2, \cdots, x_n)$과 $h(x_1, x_2, \cdots, x_n)$은 모수 $\theta$에 의존하지 않아야 함)
$$f(x_1, x_2, \cdots, x_n | \theta) = \phi[u(x_1, x_2, \cdots, x_n), \theta] * h(x_1, x_2, \cdots, x_n)$$
아래와 같이 인수분해 정리에 따라 포아송분포의 모수 $\lambda$에 대해 통계량 확률변수의 합(또는 평균)이 충분통계량임을 보일 수 있습니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation) (2) | 2024.02.26 |
---|---|
[확률과 통계적 추론] 6-6.2 충분통계량과 지수족, Rao-Blackwell 정리 (0) | 2024.02.23 |
[확률과 통계적 추론] 6-5. MLE의 점근 분포(Asymptotic Distribution) (0) | 2024.02.21 |
[확률과 통계적 추론] 6-4. ML Estimation in Regression (0) | 2024.02.15 |
[확률과 통계적 추론] 6-3. Maximum likelihood Estimation (최대가능도추정) (0) | 2024.02.13 |