이번 포스팅에서는 주축량과 이를 이용한 신뢰구간 계산하는 방법에 대해 알아보겠습니다.
1. 주축량(Pivotal Quantity)이란?
주축량은 함수 Q에 대해 다음과 같은 성질을 만족하는 경우 주축량(Pivotal Quantity)이라고 합니다.
정의
$Q(X_1, X_2, \ldots, X_n ; \theta)$의 분포가 모수 $\theta$에 의존하지 않는다면, 이를 주축량이라고 합니다
2. 정규분포에서의 예시
예전에 평균에 관한 구간 추정을 다룬 적이 있었는데요. (https://moogie.tistory.com/132)
만약 $X_1, X_2, \ldots, X_n \sim N(\mu, \sigma^2)$인 random sample에 대해 표본평균 $\overline{X}=\frac{\sum_i X_i}{n}$는 다음과 같은 분포를 따릅니다.
$$\overline{X} \sim N(\mu, \frac{\sigma^2}{n})$$
이때 표준화를 적용하면 아래와 같은 주축량을 만들 수 있습니다.
$$Z=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0, 1)$$
위 식에서 함수 $Q(X_1, X_2, \ldots, X_n, \mu, \sigma) = \frac{\frac{\sum_i X_i}{n} - \mu}{\sigma / \sqrt{n}}$은 모수를 포함하지 않은 N(0, 1)의 분포를 보이므로 Pivotal Quantity입니다.
3. 주축량을 이용한 신뢰구간
주축량 $Q(X, \theta)$의 분포를 알고 있을 때, 하위 $\frac \alpha 2$, $1-\frac \alpha 2 $ 분위수 $q_1,\;q_2$를 이용하면 $100(1-\alpha)$% 신뢰구간은 다음과 같이 표현할 수 있습니다.
$$P(q_1<Q(X, \theta)<q_2) = 1-\alpha$$
이때 주축량을 특정 모수에 대한 함수로 변환로 변환할 수 있다면 위 식을 아래와 같이 나타낼 수 있습니다.
$$P(h_1(X) < g(\theta) < h_2(X)) = 1-\alpha$$
따라서, $g(\theta)$의 신뢰구간은 $[h_1(X), h_2(X)]$로 나타낼 수 있습니다.
4. 지수분포의 모수에 대한 신뢰구간
이제 지수분포의 모수에 대한 신뢰구간을 주축량을 이용해 구해봅시다.
(1) 샘플이 1개일 때
$X \sim Exp(\theta)$일 때, 확률 밀도 함수는 $x>0$에 대해 다음과 같습니다.
$$f_X(x) = \frac1\theta e^{-x/\theta}$$
여기서 $Y=\frac{X}{\theta}$로 정의하면 $Y \sim Exp(1)$이 됩니다. 즉 $Y$는 모수 $\theta$를 포함하지 않는 분포를 따르므로 주축량 입니다.
이때 지수분포 ($\theta=1$)의 2.5%, 97.5% 백분위수는 각각 0.0253, 3.6888이므로 다음 식을 만족합니다.
$$P(0.0253 < Y < 3.6888) = 0.95$$
이를 다시 정리하면 다음과 같습니다.
$$P(0.0253 < \frac{X}{\theta}< 3.6888) =0.95$$
따라서 모수 $\theta$의 95% 신뢰구간은 다음과 같이 주어집니다.
$$[\frac{X}{3.6888}, \frac{X}{0.0253}]$$
(2) 분산에 대한 신뢰구간
지수분포의 분산은 $\theta^2$이므로 위 식을 변형하면 아래와 같습니다.
$$P[(\frac{X}{3.6888})^2 < \theta^2 < (\frac{X}{0.0253})^2]=0.95$$
따라서, 분산의 95% 신뢰구간은 다음과 같습니다.
$$[(\frac{X}{3.6888})^2, (\frac{X}{0.0253})^2]$$
5. 샘플이 여러 개일 때: 두 가지 접근법
여러 개의 샘플이 주어졌다고 가정하고 $X_1, X_2, \ldots, X_n \sim Exp(\theta)$인 경우 MLE와 주축량을 이용해 신뢰구간을 구해보겠습니다.
1. MLE approach
$\theta$의 가능도함수 $L(\theta)$는 아래와 같이 주어집니다.
$$L(\theta)=(\frac{1}{\theta})^n exp(-\frac{\sum_{i=1}^{n}X_i}{\theta})$$
이를 Log-Likelihood로 변환하면 다음과 같습니다.
$$ℓ(\theta) = -n\log(\theta)-\frac{\sum_{i=1}^{n}X_i}{\theta}$$
따라서 MLE 추정량은 $\hat{\theta}=\frac{\sum X_i}{n}=\overline{X}$입니다.
이때, MLE의 성질에 따라 점근적으로 정규분포를 따르므로 다음 식을 만족하므로
$$\frac{\hat{\theta}-\theta}{\hat{se}} = \frac{\hat{\theta}-\theta}{\hat{\theta}/\sqrt{n}} \sim N(0, 1)$$
아래 식 역시 만족합니다.
$$P(-z_{0.025} < \frac{\hat{\theta}-\theta}{\hat{\theta}/\sqrt{n}} <z_{0.025}) = 0.95$$
따라서 모수 $\theta$의 95% 근사 신뢰구간은 다음과 같습니다.
$$[\hat{\theta}-z_{0.025}\frac{\hat{\theta}}{\sqrt(n)}, \quad \hat{\theta}+z_{0.025}\frac{\hat{\theta}}{\sqrt(n)}]$$
2. Pivotal Quantity를 활용한 신뢰구간
$exp(\theta)$의 MGF는 $\psi(t) = \frac{1}{1-\theta t}$입니다.
따라서 Random sample $X_1, X_2, \ldots, X_n \sim Exp(\theta)$에서 $Y=X_1+X_2+\cdots+X_n$의 MGF $\psi_Y(t) = \frac{1}{(1-\theta t)^n}$으로 $Y \sim gamma(n, \theta)$를 따릅니다.
이때 Pivotal Quantity로 만들기 위해 $U=\frac{2Y}{\theta}$로 정의하면 $U$의 MGF는 아래와 같습니다.
$$\psi_U(t) = E[e^{tU}]=E[e^{t\frac{2Y}{\theta}}] = E[e^{\frac{2t}{\theta}Y}] = \psi_Y(\frac{2}{\theta}t) = \frac{1}{(1-2t)^(2n/2)}$$
즉 $U \sim \chi^2(2n)$으로 모수 $\theta$를 포함하지 않으므로 $U$는 주축량이고 $P(\chi^2_{1-\alpha/2}(2n)<U<\chi^2_{\alpha/2}(2n)) = 1-\alpha$이므로
모수 $\theta$의 95% 신뢰구간은 다음과 같습니다.
$$[\frac{2\sum X_i}{\chi^2_{\alpha/2}(2n)}, \quad \frac{2\sum X_i}{\chi^2_{1-\alpha/2}(2n)}]$$
마무리
이번 포스팅에서는 주축량을 이용해 신뢰구간을 계산하는 방법을 정리했습니다. 정규분포와 지수분포를 예시로 들어 신뢰구간을 유도하는 과정을 살펴보았는데요. 이를 통해 다양한 상황에서 주축량이 얼마나 유용한 도구인지 확인할 수 있었습니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
| 모비율 신뢰구간 with Chebyshev & Hoeffding Inequality (0) | 2024.12.18 |
|---|---|
| 주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 시뮬레이션 (0) | 2024.12.18 |
| [확률과 통계적 추론] 8-4. 비모수적 검정 (Non-parametric Test) (0) | 2024.03.25 |
| [확률과 통계적 추론] 8-3. 비율에 대한 가설검정 (0) | 2024.03.25 |
| [확률과 통계적 추론] 8-2. 평균에 대한 가설 검정 (0) | 2024.03.21 |
