[확률과 통계적 추론] 6-2. 순서통계량(Order Statistics)

0. 개요

안녕하세요. 이번 포스팅에서는 순서통계량(Order Statistics)에 대해 알아보겠습니다.

우선 순서통계량은 임의표본의 관측값이 있을 때, 최소값부터 최대값까지 크기 순서대로 나열한 통계량을 뜻하는데요.

그래서 k번째 순서통계량이라고하면 k번째로 작은 관측값을 의미하게 되며 표기로는 $X_{(k)}$나 $Y_k$를 사용하는데 포스팅에서는 $Y_k$로 사용하도록 하겠습니다. 참고로 이러한 순서통계량은 비모수 추론, 통계(Non-Parametric Inference & Statistics)에 많이 사용되고 있습니다.

kth Order Statistics($Y_k)$ : $X_1, X_2, \cdots, X_n$에서 k번째로 작은 관측값을 의미
Minimum($Y_1$) : 관측값 중 제일 작은 값으로 $Min(X_1, X_2, \cdots, X_n)$과 동일
Maximum($Y_n$) : 관측값 중 제일 큰 값으로 $Max(X_1, X_2, \cdots, X_n)$과 동일

간단하게 예를 들어보면 길거리에서 5명의 키를 조사해 170, 165, 178, 182, 157의 데이터를 얻었다고 생각해봅시다.

그러면 키라는 확률변수의 관측치는 순서대로 $x_1=170, x_2=165, x_3=178, x_4=182, x_5=157$이라고 생각할 수 있습니다.

순서통계량을 구하기 위해서 샘플을 순서대로 나열하면 157, 165, 170, 178, 182 라는 값을 구할 수 있어서 순서통계량은 $y_1 = 157, y_2=165, y_3=170, y_4=178, y_5=182$와 같이 구할 수 있게 됩니다.

1. 순서통계량의 분포

순서통계량도 통계량이다보니 고유의 분포를 가지고 있는데요. 만약 PDF가 $f_X(x)$인 Random Sample의 관측값 $X_1, X_2, \cdots, X_n$의 순서통계량을 $Y_1 < Y_2 < \cdots < Y_n$라고 표시할때, k번째 순서통계량의 분포를 나타내는 PDF(확률밀도함수)와 CDF(누적확률함수)는 다음과 같습니다.

PDF : $f_{Y_r}(y) = \frac{n!}{(r-1)!*1!*(n-r)!}[F_X(y)]^{r-1}*f_x(y)*[1-F_X(y)]^{n-r}$
CDF : $F_{Y_r}(y) = Pr[Y_r < y] = \sum_{k=r}^{n}\begin{pmatrix} n\\k \end{pmatrix}[F_X(y)]^k[1-F_X(y)]^{n-k}$

조금 복잡하게 생기긴 했지만 아래와 같이 유도할 수 있으며 특히 $Y_r < y$라는 뜻은 적어도 $X_1, X_2, \cdots, X_n$ 중에서 $r$개는 y보다 작아야한다는 것을 생각하고 접근하면 좋습니다.

위 공식 유도하는 것이 어렵다면 다음 예시를 통해 순서통계량의 분포를 어떻게 구하는지 파악하면 좋을 듯 합니다.

2. 순서통계량의 특징

아래 증명과 같이 순서통계량 $Y_1 < Y_2 < \cdots <Y_n$에 대해 기댓값 $E[F_X(Y_r)] = \frac{r}{n+1}$을 만족합니다.

따라서 분위수 정의에 따라 $\pi_p$는 $Pr[X < \pi_p] = p$를 만족하므로 $p=\frac{r}{n+1}$, 즉 $r=p(n+1)$인 $Y_r$은 분위수 $\pi_p$의 추정량이 됩니다.

[특징] $E[F_X(Y_r)] = \frac{r}{n+1}$
[특징] $\widehat{\pi_p} = Y_r$ 단, $r=p(n+1)$

3. Quantile-Quantile plot (QQ-Plot)

만약 관측값 $x_1, x_2, \cdots, x_n$이 특정분포를 잘 따른다고 가정합시다.

r번째 순서통계량 $Y_r$은 제 $100r/(n+1)$ 샘플 백분위수이기 때문에 순서통계량 $y_r$과 특정분포의 분위수 $\pi_p$를 점으로 찍은 $(y_r, \pi_p)$은 직선 위에 놓여있을 것 입니다. 반대로 만약 직선 위에 놓여 있지 않는다면 관측값은 사전에 특정한 분포를 잘 따르지 않는다고 볼 수 있겠죠.

이때 $(y_r, \pi_p)$를 Quantile-Quantile Plot이라고 하면 주로 QQplot이라고 많이 알려져 있습니다.

또한, 많이 상황에서 정규성을 만족하는지 판단하려고 많이 사용하나 다른 분포에서도 사용할 수 있습니다.

R에서는 분위수를 찾을때 quantile, qqplot을 그릴때는 qqplot 함수를 사용할 수 있습니다.

obs <- rnorm(n=1000, mean=5, sd=2)
yr <- quantile(obs, probs = seq(0.01, 0.99, by=0.01))
pi <- qnorm(p=seq(0.01, 0.99, by=0.01), mean=0, sd=1)

plot(yr, pi)
abline(a=0, b=1, col="red")

'Statistics > Mathmetical Statistics' 카테고리의 다른 글

[확률과 통계적 추론] 6-4. ML Estimation in Regression (0)	2024.02.15
[확률과 통계적 추론] 6-3. Maximum likelihood Estimation (최대가능도추정) (0)	2024.02.13
[확률과 통계적 추론] 6-1. 기술통계량과 탐색적 데이터 분석 (2)	2024.02.07
[확률과 통계적 추론] 5-8. Chebyshev's Inequality (체비쇼프 부등식) (0)	2024.01.21
[확률과 통계적 추론] 5-7. 연속성 수정 (Continuity Correction) (0)	2024.01.20

0. 개요

1. 순서통계량의 분포

2. 순서통계량의 특징

3. Quantile-Quantile plot (QQ-Plot)

'Statistics > Mathmetical Statistics' 카테고리의 다른 글

티스토리툴바