초기하분포의 평균과 분산
·
Statistics/Mathmetical Statistics
0. 개요확률분포를 공부하다 보면 각 분포의 평균과 분산이 공식으로만 주어지는 경우가 많습니다.하지만 "왜 이런 형태가 나오는지"를 한 번쯤 직접 유도해 보는 것이 분포를 이해하는 데 훨씬 도움이 됩니다.초기하분포(Hypergeometric distribution)는 이항분포와 유한 모집단에서 샘플을 추출한다는 점에서 동일하지만,비복원추출이라는 차이로 인해 분산에서 약간의 차이가 발생합니다.그래서 이번 포스팅에서는 초기하분포의 정의를 간단히 정리한 뒤,평균과 분산을 직접 유도해보고 이항분포와의 차이를 함께 살펴보도록 하겠습니다.1. 초기하분포의 정의모집단의 크기가 $N$이고, 그중 관심있는 항목이 $N_1$개, 그 외 항목이 $N_2$개라고 하면,$$ N = N_1 + N_2 $$ 이 모집단에서 비복원으..
[ggplot2] grouping 원리
·
Data Science/Visualization
0. 개요 (Overview)`group`은 무엇을 묶고, 어떻게 작동할까요?ggplot2를 사용하다 보면 언젠가는 grouping 때문에 헷갈리는 순간이 한 번쯤은 오게 된다고 생각합니다.group은 ggplot2의 미적 요소(aesthetic) 중 하나로, 어떤 관측치들을 하나의 그래픽 객체(선, 면, 상자 등)로 묶어 표현할지를 결정하는 데 사용됩니다.1. ggplot2의 기본 grouping 규칙ggplot2에서는 `group`을 명시적으로 지정하지 않으면 다음과 같은 규칙을 따릅니다.그래프에 사용된 모든 이산형(discrete) 변수들의 상호작용(interaction)을 기본 group으로 자동 설정합니다. 예를 들어 다음 코드를 살펴보겠습니다.diamonds |> ggplot(aes(x =..
[ICDA] Introduction - Variable & Distribution
·
Statistics/Categorical DA
안녕하세요. 오랜만의 포스팅입니다.이번에는 범주형 자료 분석이라는 주제를 가지고 한동안 올려볼 생각입니다.주요 참고 도서는 학부시절 배운 Agresti 교수님의 Introduction to categorical data analysis을 위주로 작성합니다.다만, 교재에서 빠진 증명이나 예시 같은 부분도 다수 포함할 예정이지만 수리통계학에 대해 익숙하다고 가정하고 있습니다. 1. 범주형 변수 (Categorical Variable) 앞으로 알아볼 범주형 변수(Categorical Variable)은 정치성향(진보, 보수, 중도)나 예 / 아니오와 같은 응답여부, A / B / AB / O 혈액형와 같이 범주의 집합으로 구성된 측정 척도를 가집니다. 특히 응답 여부(예/아니오)나 바이러스 검사 결과(음..
ggplot2에서 geom_rect의 투명도(alpha)가 적용되지 않는 이유와 해결법
·
Data Science/Visualization
데이터 시각화에서는 특정 부분을 강조하기 위해 사각형, 라벨, 선 등을 추가하는 경우가 많습니다. 특히 geom_rect()는 그래프 위에 사각형을 그릴 때 유용하게 사용되는데요.  그런데 alpha 값을 설정해도 투명도가 적용되지 않는 경우가 있습니다. 왜 이런 일이 발생하는지, 어떻게 해결할 수 있을지에 대해 알아보겠습니다.  geom_rect의 alpha(투명도) 값이 적용안됨먼저, 베이스라인 코드는 다음과 같습니다.mpg |> ggplot(aes(x=displ, y=hwy)) + geom_point() + geom_text_repel(data = potential_outliers, aes(label=model)) + geom_point(data = pot..
불편성(Unbiasedness)와 일치성(Consistency)
·
Statistics
0. 서두추정량에 대해 공부하다 보면, 불편성과 일치성이라는 두 가지 용어가 자주 등장합니다.최근 사회조사분석사에 나오는 통계 파트를 가르치면서 책에서 아래와 같은 불편성과 편의성에 대한 설명을 접했는데, 두 개념의 차이를 구별하는 것이 쉽지 않겠다는 생각이 들었습니다.불편성(Unbiasedness): 추정량의 기댓값이 모수값과 같아지는 성질일치성(Consistency): 표본의 크기가 커질수록 추정량이 모수값에 점점 가까워지는 성질그래서 이번 포스팅에서는 불편성과 일치성의 개념과 예시를 통한 차이에 대해 살펴보도록 하겠습니다.  1. 불편성과 일치성의 정의 우선, 통계학에서 정의하는 불편성은 다음과 같습니다.만약 $E(\hat{\theta_n}) = \theta$라면 모수 $\theta$의 점추정량 $..
표본분산(Sample Variance)의 특징
·
Statistics/Mathmetical Statistics
표본분산과 모분산은 통계학에서 자주 나오는 핵심 개념으로, 표본 데이터로부터 모수를 추정하는 데 사용됩니다.이번 포스팅에서는 표본분산이 모분산의 불편추정량임을 보이고, 표본분산과 표준편차가 모분산 및 모표준편차로 확률수렴함을 증명하도록 하겠습니다. 1. $E[S_n^2] = \sigma^2$표본분산에 정의에 따라 $S_n^2 = \frac{1}{n-1}\sum_i(X_i-\overline{X})^2 =\frac{1}{n-1}\sum_i(X_i-\mu+\mu-\overline{X})^2$이므로 표본평균의 기댓값은 아래와 같습니다. \begin{align*} E[S_n^2] &= \frac{1}{n-1}E[\sum_i(X_i-\mu+\mu-\overline{X})^2] \\ &=\frac{1}{n-1}E[\..
모비율 신뢰구간 with Chebyshev & Hoeffding Inequality
·
Statistics/Mathmetical Statistics
두 가지 방법으로 모비율의 신뢰구간을 구해봅시다이 글에서는 Chebyshev 부등식과 Hoeffding 부등식을 사용하여 모비율의 신뢰구간을 구하는 방법을 설명하고, 두 방법의 결과를 비교해보겠습니다.특히 이항분포의 경우를 중심으로 구체적인 예시와 시뮬레이션 결과를 통해 차이를 확인해 보겠습니다. 1. Chebyshev 부등식 $\varepsilon > 0$이고 확률변수 X의 평균과 분산이 존재할 때, 다음을 만족한다.$P\big(|X-E[X]| \geq\varepsilon\big) \leq \frac{var(X)}{t^2}$$X_1, X_2, \ldots, X_n \sim Bernoulli(p)$일때, 표본평균 $\overline{X}=\frac{\sum_i X_i}{n}$은 모비율 $p$의 최대 우도..
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 시뮬레이션
·
Statistics/Mathmetical Statistics
지난 포스팅 "주축량과 지수분포에서 모수의 신뢰구간-이론"(https://moogie.tistory.com/150)에서$X_1, X_2, \ldots, X_n \sim Exp(\theta)$인 경우 MLE와 주축량을 이용해 구한 $\theta$의 신뢰구간은 다음과 같았습니다. 1. MLE를 이용한 경우$$[\hat{\theta}-z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}, \hat{\theta}+z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}]$$2. Pivotal Quantity를 이용한 경우$$[\frac{2\sum X_i}{\chi^2_{\alpha/2}(2n)}, \frac{2\sum X_i}{\chi^2_{1-\alpha/2}(2n)}]..