안녕하세요. 이번 포스팅에서는 이전 포스팅에서 정리한 가설검정에 대한 이해를 바탕으로 평균에 대한 가설 검정에 대해 알아보도록 하겠습니다.
이번 포스팅에서는 평균에 대한 구간추정(https://moogie.tistory.com/132), 두 평균의 차이에 대한 구간추정(https://moogie.tistory.com/133), 가설검정(https://moogie.tistory.com/138)의 내용을 많이 포함하고 있습니다.
1. Underlying Distribution이 정규분포이고, 분산($\sigma^2$)을 아는 경우 (귀무가설 $H_0 : u = u_0$)
- $H_1 : u > u_0$인 경우 기각역 : {$\overline{x}$ | $\overline{x} \geq u_0 + z_{\alpha}\frac{\sigma}{\sqrt(n}$}
- $H_1 : u < u_0$인 경우 기각역 : {$\overline{x}$ | $\overline{x} \leq u_0 - z_{\alpha}\frac{\sigma}{\sqrt(n}$}
- $H_1 : u \neq u_0$인 경우 기각역 : {$\overline{x}$ | $|\overline{x} - u_0| \geq z_{\alpha/2}\frac{\sigma}{\sqrt(n}$}
(*이는 이전 포스팅에서 다룬 평균에 대한 구간추정에서 신뢰구간에 속하지 않으면 기각하는 원리와 같습니다.)
2. Underlying Distribution이 정규분포이고, 분산($\sigma^2$)을 모르는 경우 (귀무가설 $H_0 : u = u_0$)
- $H_1 : u > u_0$인 경우 기각역 : {$\overline{x}$ | $\overline{x} \geq u_0 + t_{\alpha}(n-1)\frac{s}{\sqrt(n}$}
- $H_1 : u < u_0$인 경우 기각역 : {$\overline{x}$ | $\overline{x} \leq u_0 - t_{\alpha}(n-1)\frac{s}{\sqrt(n}$}
- $H_1 : u \neq u_0$인 경우 기각역 : {$\overline{x}$ | $|\overline{x} - u_0| \geq t_{\alpha/2}\frac{s}{\sqrt(n}$}
(* Underlying Distribution이 정규분포가 아니더라도, 표본의 수가 크다면 CLT에 의해서 근사적인 가설검정을 수행하는데 사용될 수 있습니다.)
아래 코드와 같이 Paired T-Test에도 사용할 수 있습니다.
운동 전/후 몸무게를 아래와 같이 생성하였고, 운동 전 - 운동 후 몸무게에 shapiro.test를 적용해 검정한 결과 P-value가 0.05보다 크므로 정규성을 만족한다고 생각할 수 있으며 운동전후 몸무게 차이를 T-test를 통해 검정한 결과 P-value < 0.05이므로 귀무가설을 기각할 수 있습니다. (신뢰구간은 [2.055, $\infty$]인 것을 확인할 수 있죠..)
따라서, 운동전후 몸무게 차이는 0보다 크므로 운동 후 몸무게가 줄었다고 할 수 있습니다.
exercise_before = round(c(rnorm(n=5, mean=50, sd=5), rnorm(n=3, mean=75, sd=10)),2)
exercise_before # eg) 59.13 42.40 53.29 59.41 47.40 86.68 75.05 72.32
excerise_after = round(exercise_before + rnorm(8, mean = -3, sd = 2), 2)
excerise_after # eg) 55.52 35.86 54.50 53.61 40.19 84.13 70.70 70.06
diff = exercise_before - excerise_after; diff # 운동 전 - 운동 후
shapiro.test(diff) # H0 : 정규성을 만족한다를 기각할 수 없다.
t.test(diff, alternative = "greater") # H1 : 운동 전 - 운동 후의 평균 > 0
t.test(exercise_before, excerise_after, paired = T, alternative = "greater")
3. 서로 독립인 확률변수 $X$, $Y$가 정규성을 만족할 때 귀무가설 $H_0$ : $u_x = u_y$ 검정
- (등분산가정) Student T-test를 적용한 기각역 : {$T : |T| = |\frac{\overline{X} - \overline{Y}}{\sqrt{\frac{(n-1)S_X^2+(m-1)S_Y^2}{n+m-2}(\frac{1}{n} + \frac{1}{m})}}| \geq t_{\alpha/2}(n+m-2)$}
- (등분산가정X) Welch's T-test를 적용한 기각역 : {$T : |T| = |\frac{\overline{X} - \overline{Y}}{\sqrt{\frac{S_X^2}{n}+\frac{S_Y^2}{m}}}| \geq t_{\alpha/2}(r)$} (단, $r = \frac{(\frac{S_X^2}{n} + \frac{S_Y^2}{m})^2}{\frac{1}{n-1}(\frac{S_X^2}{n})^2 + \frac{1}{m-1}(\frac{S_Y^2}{m})^2 }$)
서적에 나온 예제를 R로 실습해 보았습니다. (귀무가설 : $u_x = u_y$, 대립가설 : $u_x < u_y$)
X = c(0.8, 1.8, 1, .1, .9, 1.7, 1.0, 1.4, .9, 1.2, .5)
Y = c(1, .8, 1.6, 2.6, 1.3, 1.1, 2.4, 1.8, 2.5, 1.4, 1.9, 2.0, 1.2)
var.test(X, Y)
purrr::map_dbl(list(X, Y), ~shapiro.test(.)$p.value)
- 등분산성 검정에서 유의확률이 0.569로 유의수준보다 크므로 귀무가설 "H0 : 분산이 동일하다"를 기각할 수 없습니다. 따라서 X와 Y는 분산이 같다고 볼 수 있습니다.
- 두 변수의 정규성 검정을 위해 Shapiro.test를 적용한 결과 유의확률이 0.8374, 0.5438로 유의수준보다 크므로 귀무가설 "H0 : 해당 데이터는 정규성을 만족한다"를 기각할 수 없습니다. 따라서 두 변수 모두 정규성을 만족한다고 할 수 있습니다.
mean_X = mean(X); mean_Y = mean(Y)
var_X = var(X); var_Y = var(Y)
n = length(X); m = length(Y)
sp = sqrt( ((n-1)*var_X + (m-1)*var_Y) / (n+m-2) )
sprintf("기각역 : {T<%.4f}", qt(p=0.05, df = n+m-2, lower.tail = T))
tval = (mean_X - mean_Y) / (sp*sqrt((1/n+1/m)))
sprintf("T값 : T = %.4f", tval)
- T값이 기각역에 포함되므로 귀무가설을 기각하고 대립가설을 채택합니다.
- 따라서, X의 평균은 Y의 평균보다 작다고 할 수 있습니다.
- 참고로, R에서 t.test(X, Y, var.equal = T)로 같은 결과를 얻을 수 있습니다.
4. 정규분포를 따르는 서로 독립인 두 확률변수의 분산을 알고 있는 경우 Z값을 사용해 귀무가설 $u_x = u_y$을 검정할 수 있습니다.
- $H_1 : u_x \neq u_y$인 경우 기각역 : {$Z : |Z| = |\frac{\overline{X}-\overline{Y}}{\sqrt{\frac{\sigma_X^2}{n} + \frac{\sigma_Y^2}{m}}}| \geq z_{\alpha/2} $}
- 정규분포를 따르지 않더라도, 표본의 수가 충분히 크면 근사적인 검정에 사용할 수 있습니다.
이번 포스팅은 여기까지입니다. 물론 어렵고 힘들었겠지만 배운 내용들이 이렇게 실용적으로 사용될 수 있다는게 너무 재미있지 않나요?
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 8-4. 비모수적 검정 (Non-parametric Test) (0) | 2024.03.25 |
---|---|
[확률과 통계적 추론] 8-3. 비율에 대한 가설검정 (0) | 2024.03.25 |
[확률과 통계적 추론] 8-1. 가설검정(Tests of Statistical Hypothesis ) (0) | 2024.03.19 |
[확률과 통계적 추론] 7-6. 회귀분석 - 신뢰구간과 예측구간 (0) | 2024.03.18 |
[확률과 통계적 추론] 7-5. Distribution-Free CI for percentile (0) | 2024.03.15 |