이번 포스팅에서는 통계의 핵심인 정규분포에 대해 작성하려고 합니다.
정규분포는 다소 복잡한 확률분포를 가지고 있지만 실생활 및 응용분야에서 굉장히 많이 사용됩니다.
모델링을 위해서 skewed distribution을 가진 변수에 box-cox 변환이나 Yeo-Johnson 변환등을 통해 정규분포를 따르는 데이터를 생성할 수 있으며 회귀분석과 같이 다양한 분석 기법에서 정규분포를 가정하는 등 가장 많이 접하는 분포 중 하나입니다.
대표적으로 키나, 몸무게와 같은 자연적인 특성이 정규분포를 따르는 것으로 유명하고 아래 이미지에서 기호 및 pdf, mgf, 평균과 분산, 표준정규분포에 대해 간단하게 요약했습니다.

참고로 r에서는 dnorm, qnorm, pnorm, rnorm 및 shapiro.test, MVN::mvn()을 통해 정규분포 관련 특성 및 정규성을 검정할 수 있으며 실제로도 많이 사용되고 있습니다.
# dnorm : 확률밀도 함수의 값을 계산
normal_pdf <- function(x=0, mean=0, sd=1){
1/sqrt(2*pi*sd^2) * exp(-{(x-mean)^2/(2*sd^2)})}
normal_pdf(x = 0, mean = 0, sd = 1) # 0.3989423
dnorm(x = 0, mean = 0, sd = 1) # 0.3989423
normal_pdf(x=3, mean=1, sd=2) # 0.1209854
dnorm(x=3, mean=1,sd=2) # 0.1209854
# pnorm : X~N일때, cdf F(X) = P(X<x)의 값을 계산
normal_cdf <- function(x=0, mean=0, sd=1){
integrate(f=normal_pdf, lower=-Inf, upper=x, mean=mean, sd=sd)}
normal_cdf(x=0, mean=0, sd=1) # 0.5 with absolute error < 4.7e-05
pnorm(q=0, mean=0, sd=1) # 0.5
normal_cdf(x=2.96, mean=1, sd=1) # 0.9750021 with absolute error < 1.3e-06
pnorm(q=2.96, mean=1, sd=1) # 0.9750021
# qnorm : P(X<pi_p) = p인 (100p%)분위수 출력
qnorm(p=0.05) # -1.644854
# rnorm : X~N(u,sigma^2)를 따르는 난수 출력
rnorm(n=10)'Statistics > Mathmetical Statistics' 카테고리의 다른 글
| [확률과 통계적 추론] 3-5. 혼합타입분포(Mixed Type Distribution) (0) | 2023.05.21 |
|---|---|
| [확률과 통계적 추론] 3-4. Failure Rate(고장율) (2) | 2023.05.21 |
| [확률과 통계적 추론] 3-2. 지수분포, 감마분포, 카이제곱분포 (0) | 2023.05.16 |
| [확률과 통계적 추론] 3-1. 연속형분포 (0) | 2023.05.14 |
| [확률과 통계적 추론] 2-3.1 포아송분포 접근 with R (1) | 2023.05.14 |