[확률과 통계적 추론] 7-2. 두개의 평균 차이에 대한 구간추정

2024. 3. 13. 10:38·Statistics/Mathmetical Statistics

 

안녕하세요. 이번 포스팅에서는 두 개의 평균 차이에 대한 구간 추정에 대해 정리하였습니다. 

 

 

1. 모분산 $\sigma^2_X$, $\sigma^2_Y$가 알려져 있을 때, 두 평균의 차이에 대한 신뢰구간

  • $100(1-\alpha)$% 신뢰구간 : $[\overline{X}-\overline{Y} \pm z_{\alpha/2}\sqrt{\frac{\sigma_X^2}{n}+{\frac{\sigma_Y^2}{m}}}]$ 
  • 가정 : $X \sim N(\mu_X, \sigma^2_X), Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)

 

2. 모분산 $\sigma^2_X$, $\sigma^2_Y$가 알려져 있지 않을 때, 두 평균의 차이에 대한 근사 신뢰구간

  • $100(1-\alpha)$% 근사 신뢰구간 : $[\overline{X}-\overline{Y} \pm z_{\alpha/2}\sqrt{\frac{S_X^2}{n}+{\frac{S_Y^2}{m}}}]$
  • 가정 : $X \sim N(\mu_X, \sigma^2_X)$, $Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)

 

 

3. (Student T-Test) 모분산이 알려져 있지 않으나 $\sigma^2_X = \sigma^2_Y$와 같이 같다고 가정할 수 있을 때, 두 평균의 차이에 대한 신뢰구간

  • $100(1-\alpha)$% 신뢰구간 : $[\overline{X} - \overline{Y} \pm t_{\alpha/2}(n+m-2)\sqrt{(\frac{1}{n}+\frac{1}{m}) \frac{(n-1)S^2_X + (m-1)S^2_Y}{n+m-2}}]$
  • 가정 : $X \sim N(\mu_X, \sigma^2_X), Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)
  • R에서는 t.test(x, y, var.equal = T)를 통해서 검정이 가능합니다.

 

4. (Welch's T-Test) 모분산 $\sigma^2_X$, $\sigma^2_Y$가 알려져 있지 않을 때, 두 평균의 차이에 대한 근사 신뢰구간

  • $100(1-\alpha)$% 근사 신뢰구간 : $[\overline{X} - \overline{Y} \pm t_{\alpha/2}(r)\sqrt{\frac{S_X^2}{n} + \frac{S_Y^2}{m}}]$ (단, $r = \frac{(\frac{S_X^2}{n} + \frac{S_Y^2}{m})^2}{\frac{1}{n-1}(\frac{S_X^2}{n})^2 + \frac{1}{m-1}(\frac{S_Y^2}{m})^2 }$)
  • 가정 : $X \sim N(\mu_X, \sigma^2_X), Y \sim N(\mu_Y, \sigma^2_Y)$이고 서로 독립일 때 (단, 표본의 수는 각각 n, m개)
  • R에서는 t.test(x, y, var.equal = F)를 통해 검정이 가능하며 소표본에서 잘 작동합니다.

 

 

5. 정규성을 가정할 수 없고 모분산 $\sigma^2_X$, $\sigma^2_Y$이 알려져 있지 않으나 대표본인 경우 두 평균의 차이에 대한 근사 신뢰구간

  • $100(1-\alpha)$% 근사 신뢰구간 : $[\overline{X}-\overline{Y} \pm z_{\alpha/2}\sqrt{\frac{S_X^2}{n}+{\frac{S_Y^2}{m}}}]$
  • 가정 : 연속형 확률변수 $X$와 $Y$가 서로 독립이고, underlying Dist가 적어도 심하게 한쪽으로 쏠린 형태가 아니라고 가정
  • 각각의 확률변수가 중심극한정리(CLT)에 의해 근사적으로 정규분포를 따르는 것을 이용

 

참고사항) R에서 정규성 검정 및 분산의 동질성 검정

  • 정규성가정
    • shapiro.test : 소표본에 유리
    • nortest::ad.test : 극단값에 민감하게 반응하며 대표본에 사용
    • ks.test, lillie.test : Kolmogorov-Smirnov 검정을 사용하여 검정하는 방법
  • 분산의 동질성 검정
    • var.test : 두 집단의 정규성 가정하에 F-Test 사용
    • car::leveneTest : 정규성을 만족하지 않는 경우 F-Test보다 견고하며 여러집단에 적용이 가능함

 

아래 R코드는 정규성 검정 및 분산의 동질성 검정을 바탕으로 두 평균 차이에 대한 신뢰구간을 실행한 코드입니다.

library(tidyverse)
setosa_SL <- iris %>% filter(Species == "setosa") %>% pull(Sepal.Length)
versicolor_SL <- iris %>% filter(Species=="versicolor") %>% pull(Sepal.Length)

iris %>% group_by(Species) %>% group_map(~shapiro.test(.$Sepal.Length))
var.test(setosa_SL, versicolor_SL)
t.test(setosa_SL, versicolor_SL, var.equal = F)
  • 각 그룹 별 정규성 검정에서 모두 귀무가설을 채택하므로 각 그룹별로 정규분포를 따른다고 할 수 있습니다.
  • 또한, 분산의 동질성 검정에서 귀무가설을 기각하므로 setosa와 versicolor의 Sepal.Length의 분산은 같다고 할 수 없습니다.
  • 따라서, Welch's T-Test를 적용하여 두 그룹의 평균에 차이에 대한 검정을 실시하였습니다.

 

 

검정결과 P-value가 0.05보다 작으므로 유의수준 0.05하에서 두 평균이 같다는 귀무가설을 기각합니다.

또한, 95% 신뢰구간은 [-1.1057, -0.7543]으로 0을 포함하지 않으며 검정 통계량의 값은 T=-10.521인 점을 확인할 수 있습니다. 

'Statistics > Mathmetical Statistics' 카테고리의 다른 글

[확률과 통계적 추론] 7-4. Sample Size  (0) 2024.03.14
[확률과 통계적 추론] 7-3. 비율에 대한 구간추정  (0) 2024.03.13
[확률과 통계적 추론] 7-1. 평균에 대한 구간추정  (3) 2024.03.06
[확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation)  (2) 2024.02.26
[확률과 통계적 추론] 6-6.2 충분통계량과 지수족, Rao-Blackwell 정리  (0) 2024.02.23
'Statistics/Mathmetical Statistics' 카테고리의 다른 글
  • [확률과 통계적 추론] 7-4. Sample Size
  • [확률과 통계적 추론] 7-3. 비율에 대한 구간추정
  • [확률과 통계적 추론] 7-1. 평균에 대한 구간추정
  • [확률과 통계적 추론] 6-7. 베이지안 추정 (Bayesian Estimation)
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[확률과 통계적 추론] 7-2. 두개의 평균 차이에 대한 구간추정
상단으로

티스토리툴바