안녕하세요. 이번 포스팅에서는 두 개의 평균 차이에 대한 구간 추정에 대해 정리하였습니다.
1. 모분산 $\sigma^2_X$, $\sigma^2_Y$가 알려져 있을 때, 두 평균의 차이에 대한 신뢰구간
- $100(1-\alpha)$% 신뢰구간 : $[\overline{X}-\overline{Y} \pm z_{\alpha/2}\sqrt{\frac{\sigma_X^2}{n}+{\frac{\sigma_Y^2}{m}}}]$
- 가정 : $X \sim N(\mu_X, \sigma^2_X), Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)
2. 모분산 $\sigma^2_X$, $\sigma^2_Y$가 알려져 있지 않을 때, 두 평균의 차이에 대한 근사 신뢰구간
- $100(1-\alpha)$% 근사 신뢰구간 : $[\overline{X}-\overline{Y} \pm z_{\alpha/2}\sqrt{\frac{S_X^2}{n}+{\frac{S_Y^2}{m}}}]$
- 가정 : $X \sim N(\mu_X, \sigma^2_X)$, $Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)
3. (Student T-Test) 모분산이 알려져 있지 않으나 $\sigma^2_X = \sigma^2_Y$와 같이 같다고 가정할 수 있을 때, 두 평균의 차이에 대한 신뢰구간
- $100(1-\alpha)$% 신뢰구간 : $[\overline{X} - \overline{Y} \pm t_{\alpha/2}(n+m-2)\sqrt{(\frac{1}{n}+\frac{1}{m}) \frac{(n-1)S^2_X + (m-1)S^2_Y}{n+m-2}}]$
- 가정 : $X \sim N(\mu_X, \sigma^2_X), Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)
- R에서는 t.test(x, y, var.equal = T)를 통해서 검정이 가능합니다.
4. (Welch's T-Test) 모분산 $\sigma^2_X$, $\sigma^2_Y$가 알려져 있지 않을 때, 두 평균의 차이에 대한 근사 신뢰구간
- $100(1-\alpha)$% 근사 신뢰구간 : $[\overline{X} - \overline{Y} \pm t_{\alpha/2}(r)\sqrt{\frac{S_X^2}{n} + \frac{S_Y^2}{m}}]$ (단, $r = \frac{(\frac{S_X^2}{n} + \frac{S_Y^2}{m})^2}{\frac{1}{n-1}(\frac{S_X^2}{n})^2 + \frac{1}{m-1}(\frac{S_Y^2}{m})^2 }$)
- 가정 : $X \sim N(\mu_X, \sigma^2_X), Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)
- R에서는 t.test(x, y, var.equal = F)를 통해 검정이 가능하며 소표본에서 잘 작동합니다.
5. 정규성을 가정할 수 없고 모분산 $\sigma^2_X$, $\sigma^2_Y$이 알려져 있지 않으나 대표본인 경우 두 평균의 차이에 대한 근사 신뢰구간
- $100(1-\alpha)$% 근사 신뢰구간 : $[\overline{X}-\overline{Y} \pm z_{\alpha/2}\sqrt{\frac{S_X^2}{n}+{\frac{S_Y^2}{m}}}]$
- 가정 : 연속형 확률변수 $X$와 $Y$가 서로 독립이고, underlying Dist가 적어도 심하게 한쪽으로 쏠린 형태가 아니라고 가정
- 각각의 확률변수가 중심극한정리(CLT)에 의해 근사적으로 정규분포를 따르는 것을 이용
참고사항) R에서 정규성 검정 및 분산의 동질성 검정
- 정규성가정
- shapiro.test : 소표본에 유리
- nortest::ad.test : 극단값에 민감하게 반응하며 대표본에 사용
- ks.test, lillie.test : Kolmogorov-Smirnov 검정을 사용하여 검정하는 방법
- 분산의 동질성 검정
- var.test : 두 집단의 정규성 가정하에 F-Test 사용
- car::leveneTest : 정규성을 만족하지 않는 경우 F-Test보다 견고하며 여러집단에 적용이 가능함
아래 R코드는 정규성 검정 및 분산의 동질성 검정을 바탕으로 두 평균 차이에 대한 신뢰구간을 실행한 코드입니다.
library(tidyverse)
setosa_SL <- iris %>% filter(Species == "setosa") %>% pull(Sepal.Length)
versicolor_SL <- iris %>% filter(Species=="versicolor") %>% pull(Sepal.Length)
iris %>% group_by(Species) %>% group_map(~shapiro.test(.$Sepal.Length))
var.test(setosa_SL, versicolor_SL)
t.test(setosa_SL, versicolor_SL, var.equal = F)
- 각 그룹 별 정규성 검정에서 모두 귀무가설을 채택하므로 각 그룹별로 정규분포를 따른다고 할 수 있습니다.
- 또한, 분산의 동질성 검정에서 귀무가설을 기각하므로 setosa와 versicolor의 Sepal.Length의 분산은 같다고 할 수 없습니다.
- 따라서, Welch's T-Test를 적용하여 두 그룹의 평균에 차이에 대한 검정을 실시하였습니다.
검정결과 P-value가 0.05보다 작으므로 유의수준 0.05하에서 두 평균이 같다는 귀무가설을 기각합니다.
또한, 95% 신뢰구간은 [-1.1057, -0.7543]으로 0을 포함하지 않으며 검정 통계량의 값은 T=-10.521인 점을 확인할 수 있습니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 7-4. Sample Size (0) | 2024.03.14 |
---|---|
[확률과 통계적 추론] 7-3. 비율에 대한 구간추정 (0) | 2024.03.13 |
[확률과 통계적 추론] 7-1. 평균에 대한 구간추정 (3) | 2024.03.06 |
[확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation) (2) | 2024.02.26 |
[확률과 통계적 추론] 6-6.2 충분통계량과 지수족, Rao-Blackwell 정리 (0) | 2024.02.23 |