이번 포스팅은 조건부분포와 상관계수의 관계에 대해서 알아보도록 하겠습니다. 사실 저번 포스팅에서 같이 올리려고 했는데 너무 길어지는 바람에 따로 올리게 되었네요..
조건부 분포와 조건부 평균의 정의에 따라 X의 값이 주어졌을 때 Y의 평균은 아래와 같습니다.
$E[Y|X=x] = \sum_{y}^{}yf(y|x) = \sum_{y}^{}y\frac{f(x,y)}{f_X(x)}$
Y의 평균의 값이 x의 값에 따라 선형적이라고 가정하면 위 식은 아래와 같이 정리가 됩니다.
$E[Y|X=x] = \sum_{y}^{}y\frac{f(x,y)}{f_X(x)} = ax + b$ (①)
그렇다면 $f_X(x)$는y에 대한 합(Summation)에 영향을 받지 않으므로 다음과 같이 이항할 수 있습니다.
$\sum_{y}yf(x,y) = f_X(x)(ax+b)$
➡️ $\sum_{x}\sum_{y}yf(x,y) = \sum_{x}(f_X(x)(ax+b))$
➡️ $\sum_{y}(y\sum_{x}f(x,y)) = \sum_{x}(ax*f_X(x) + bf_X(x))$
➡️ $\sum_{y}(yf_Y(y)) = au_X + b$
➡️ $ u_Y = au_X + b$ (②)
또한 ① 양변에 x를 곱하여 정리하면 다음과 같습니다.
$\sum_{x}\sum_{y}(xyf(x,y)) = \sum_{x}(ax^2+bx)f_X(x)$
➡️ $E[XY] = aE[X^2] + bE[X]$
➡️ $u_Xu_Y + \rho\sigma_X\sigma_Y = a(u_{X}^2+\sigma_{X}^2) + bu_X$ (③)
이때 등식 ②와 ③을 $a$와 $b$에 대해 정리하면 아래와 같은 결과를 얻습니다.
$ a=\rho\frac{\sigma_Y}{\sigma_X} \quad b=u_Y-\rho\frac{\sigma_Y}{\sigma_X}u_X$
따라서 Y에 대한 조건부 평균은 가정 하에서 아래와 같이 표현할 수 있습니다.
식을 자세하게 보면 $(u_X, u_Y)$를 지나는 것을 알 수 있으며 기울기는 상관계수에 표준편차의 비를 곱한 것을 알 수 있습니다.
$E[Y|X=x] = \rho\frac{\sigma_Y}{\sigma_X}(x-u_X) + u_Y$
$E[Y|X=x] = \frac{Cov(X,Y)}{Var(X)}(x-u_X) + u_Y$
이를 응용해 Trinomial Distribution의 상관계수를 구해보았으며 과정은 아래와 같습니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 4-5. 이변량 정규분포 (0) | 2024.01.07 |
---|---|
[확률과 통계적 추론] 4-4. 연속형 이변량 분포 (0) | 2024.01.04 |
[확률과 통계적 추론] 4-3. 조건부 분포 (Conditional Distribution) (3) | 2024.01.03 |
[확률과 통계적 추론] 4-2. Covariance & Correlation (0) | 2023.07.30 |
[확률과 통계적 추론] 4-1. Bivariate Distribution (이변량분포) (0) | 2023.07.30 |