안녕하세요. 이번 포스팅에서는 지수족과 Rao-Blackwell 정리에 대해 알아보겠습니다.
저번 포스팅에서 다룬 충분통계량(Sufficient Statistics)는 모수에 대한 정보를 담고 있는 통계량으로 Random Sample의 Joint PDF는 모수에 대한 정보를 가지고 있는데, 충분통계량이 주어졌을 때 조건부 분포에는 모수에 의존하지 않으므로 모수 추정에 있어서 데이터 축소가 가능하다는 것을 암시합니다.
1. 지수족(Expoonential Family)
지수족은 확률분포(pmf/pdf)가 $exp[K(x)p(\theta) + S(x) + q(\theta)]$와 같이 지수형태의 함수로 표현이 가능하면 확률분포는 지수족에 속한다고 합니다. (단, 확률분포의 정의역이 모수에 영향을 받지 않아야 합니다.)
지수족은 충분통계량을 쉽게 구할 수 있고 GLM(일반화선형모델)에 사용되는 만큼 어떤 형태를 가지고 있는지 알아야 합니다.
대표적으로 이항분포, 정규분포, 포아송분포가 있는데 아래와 같이 지수족에 속하는 형태로 변환이 가능합니다.
- [Binomial] $f(x|p) = {n \choose x}p^x(1-p)^{n-x} = exp\{xln(\frac{p}{1-p}) + ln{n \choose x} + nln(1-p)\}$
- [Poisson] $f(x|\lambda) = \frac{e^{-\lambda}\lambda^x}{x!} = exp\{xln\lambda -lnx! - \lambda \}$
- [Normal] $f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} = \frac{1}{\sqrt{2\pi}}exp\{-\frac{x^2}{2\sigma^2} + \frac{\mu}{\sigma^2}x - \frac{\mu^2}{2\sigma^2} - \frac{ln\sigma^2}{2}\}$
2. 지수족과 충분통계량
Random Sample($X_1, X_2, \cdots, X_n$)의 Underlying Distribution이 $exp[K(x)p(\theta) + S(x) + q(\theta)]$와 같이 지수족에 속하면, Factorization Theorem에 따라 통계량 $\sum_{i=1}^{n} K(X_i)$는 모수 $\theta$의 충분통계량임을 알 수 있습니다.
이를 이용하여 지수분포의 모수 $\theta$의 충분통게량이 $\overline{X}$ 또는 $\sum_{i=1}^{n} X_i$임을 쉽게 알 수 있습니다.
3. 충분통계량의 성질
만약 모수 $\theta$에 대해 충분통계량이 존재하고 모수의 추정량 ML Estimator이 유일하게 존재한다면, ML Estimator는 충분통계량의 함수로 나타낼 수 있습니다.
아래 예시에서 정규분포의 모수 $\mu$, $\sigma^2$의 결합 충분 통계량은 $Y_1 = \sum_{i=1}^{n} X_i$, $Y_2 = \sum_{i=1}^{n} X_i^2$인 것을 알 수 있습니다.
이때, 각 모수의 ML Estimation은 $\overline{X}$, $\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n}$이므로 추정량은 충분통계량의 함수로 나타낼 수 있습니다.
(정규분포의 ML Estimation 참고 : https://moogie.tistory.com/126)
4. Rao-Blackwell Theorem
Rao-Blackwell Theorem은 아래와 같이 불편추정량과 충분통계량을 이용해 더 낮은 분산을 가지는 비편향 추정량을 만들 수 있다 정리입니다.
[Rao-Blackwell 정리] Random Sample ($X_1, X_2, \cdots, X_n$)의 underlying Dist가 $f_X(x|\theta)$라고 생각하자.
이때, 모수 $\theta$에 대한 충분통계량을 $Y_1 = u_1(X_1, X_2, \cdots, X_n)$, 모수 $\theta$의 불편추정량을 $Y_2 = u_2(X_1, X_2, \cdots, X_n)$이라고 하자. $Y_2 = g(Y_1)$와 같이 $Y_1$의 함수로 표현이 안되는 경우 $E[Y_2|Y_1] = u(Y_1)$은 모수 $\theta$의 불편추정량이며 $Var(u(Y_1)) \leq Var(Y_2)$이다.
따라서, Rao-Blackwell 정리는 불편추정량이 가질 수 있는 최소의 분산을 알려주며 최소 분산 불편 추정량을 MVUE라고 합니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 7-1. 평균에 대한 구간추정 (3) | 2024.03.06 |
---|---|
[확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation) (2) | 2024.02.26 |
[확률과 통계적 추론] 6-6.1 Sufficient Statistics (충분통계량) (0) | 2024.02.22 |
[확률과 통계적 추론] 6-5. MLE의 점근 분포(Asymptotic Distribution) (0) | 2024.02.21 |
[확률과 통계적 추론] 6-4. ML Estimation in Regression (0) | 2024.02.15 |