[ICDA] Introduction - Variable & Distribution
·
Statistics/Categorical DA
안녕하세요. 오랜만의 포스팅입니다.이번에는 범주형 자료 분석이라는 주제를 가지고 한동안 올려볼 생각입니다.주요 참고 도서는 학부시절 배운 Agresti 교수님의 Introduction to categorical data analysis을 위주로 작성합니다.다만, 교재에서 빠진 증명이나 예시 같은 부분도 다수 포함할 예정이지만 수리통계학에 대해 익숙하다고 가정하고 있습니다. 1. 범주형 변수 (Categorical Variable) 앞으로 알아볼 범주형 변수(Categorical Variable)은 정치성향(진보, 보수, 중도)나 예 / 아니오와 같은 응답여부, A / B / AB / O 혈액형와 같이 범주의 집합으로 구성된 측정 척도를 가집니다. 특히 응답 여부(예/아니오)나 바이러스 검사 결과(음..
ggplot2에서 geom_rect의 투명도(alpha)가 적용되지 않는 이유와 해결법
·
Data Science/Visualization
데이터 시각화에서는 특정 부분을 강조하기 위해 사각형, 라벨, 선 등을 추가하는 경우가 많습니다. 특히 geom_rect()는 그래프 위에 사각형을 그릴 때 유용하게 사용되는데요.  그런데 alpha 값을 설정해도 투명도가 적용되지 않는 경우가 있습니다. 왜 이런 일이 발생하는지, 어떻게 해결할 수 있을지에 대해 알아보겠습니다.  geom_rect의 alpha(투명도) 값이 적용안됨먼저, 베이스라인 코드는 다음과 같습니다.mpg |> ggplot(aes(x=displ, y=hwy)) + geom_point() + geom_text_repel(data = potential_outliers, aes(label=model)) + geom_point(data = pot..
불편성(Unbiasedness)와 일치성(Consistency)
·
Statistics
0. 서두추정량에 대해 공부하다 보면, 불편성과 일치성이라는 두 가지 용어가 자주 등장합니다.최근 사회조사분석사에 나오는 통계 파트를 가르치면서 책에서 아래와 같은 불편성과 편의성에 대한 설명을 접했는데, 두 개념의 차이를 구별하는 것이 쉽지 않겠다는 생각이 들었습니다.불편성(Unbiasedness): 추정량의 기댓값이 모수값과 같아지는 성질일치성(Consistency): 표본의 크기가 커질수록 추정량이 모수값에 점점 가까워지는 성질그래서 이번 포스팅에서는 불편성과 일치성의 개념과 예시를 통한 차이에 대해 살펴보도록 하겠습니다.  1. 불편성과 일치성의 정의 우선, 통계학에서 정의하는 불편성은 다음과 같습니다.만약 $E(\hat{\theta_n}) = \theta$라면 모수 $\theta$의 점추정량 $..
표본분산(Sample Variance)의 특징
·
Statistics/Mathmetical Statistics
표본분산과 모분산은 통계학에서 자주 나오는 핵심 개념으로, 표본 데이터로부터 모수를 추정하는 데 사용됩니다.이번 포스팅에서는 표본분산이 모분산의 불편추정량임을 보이고, 표본분산과 표준편차가 모분산 및 모표준편차로 확률수렴함을 증명하도록 하겠습니다. 1. $E[S_n^2] = \sigma^2$표본분산에 정의에 따라 $S_n^2 = \frac{1}{n-1}\sum_i(X_i-\overline{X})^2 =\frac{1}{n-1}\sum_i(X_i-\mu+\mu-\overline{X})^2$이므로 표본평균의 기댓값은 아래와 같습니다. \begin{align*} E[S_n^2] &= \frac{1}{n-1}E[\sum_i(X_i-\mu+\mu-\overline{X})^2] \\ &=\frac{1}{n-1}E[\..
모비율 신뢰구간 with Chebyshev & Hoeffding Inequality
·
Statistics/Mathmetical Statistics
두 가지 방법으로 모비율의 신뢰구간을 구해봅시다이 글에서는 Chebyshev 부등식과 Hoeffding 부등식을 사용하여 모비율의 신뢰구간을 구하는 방법을 설명하고, 두 방법의 결과를 비교해보겠습니다.특히 이항분포의 경우를 중심으로 구체적인 예시와 시뮬레이션 결과를 통해 차이를 확인해 보겠습니다. 1. Chebyshev 부등식 $\varepsilon > 0$이고 확률변수 X의 평균과 분산이 존재할 때, 다음을 만족한다.$P\big(|X-E[X]| \geq\varepsilon\big) \leq \frac{var(X)}{t^2}$$X_1, X_2, \ldots, X_n \sim Bernoulli(p)$일때, 표본평균 $\overline{X}=\frac{\sum_i X_i}{n}$은 모비율 $p$의 최대 우도..
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 시뮬레이션
·
Statistics/Mathmetical Statistics
지난 포스팅 "주축량과 지수분포에서 모수의 신뢰구간-이론"(https://moogie.tistory.com/150)에서$X_1, X_2, \ldots, X_n \sim Exp(\theta)$인 경우 MLE와 주축량을 이용해 구한 $\theta$의 신뢰구간은 다음과 같았습니다. 1. MLE를 이용한 경우$$[\hat{\theta}-z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}, \hat{\theta}+z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}]$$2. Pivotal Quantity를 이용한 경우$$[\frac{2\sum X_i}{\chi^2_{\alpha/2}(2n)}, \frac{2\sum X_i}{\chi^2_{1-\alpha/2}(2n)}]..
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 이론
·
Statistics/Mathmetical Statistics
이번 포스팅에서는 주축량과 이를 이용한 신뢰구간 계산하는 방법에 대해 알아보겠습니다. 1. 주축량(Pivotal Quantity)이란?주축량은 함수 Q에 대해 다음과 같은 성질을 만족하는 경우 주축량(Pivotal Quantity)이라고 합니다.정의$Q(X_1, X_2, \ldots, X_n ; \theta)$의 분포가 모수 $\theta$에 의존하지 않는다면, 이를 주축량이라고 합니다 2. 정규분포에서의 예시예전에 평균에 관한 구간 추정을 다룬 적이 있었는데요. (https://moogie.tistory.com/132)만약 $X_1, X_2, \ldots, X_n \sim N(\mu, \sigma^2)$인 random sample에 대해 표본평균 $\overline{X}=\frac{\sum_i X_i}..
[R] rlang으로 하는 동적 변수 참조와 환경(Environment)
·
Data Science/Manipulation
다른 블로그에도 관련된 내용이 없거나 적고 스스로 rlang과 관련된 내용 정리가 필요한 것 같아 포스팅을 올리게 되었습니다. mpg라는 데이터프레임에서 "model"이라는 열을 기준으로 그룹화를 한다면 아래와 같이 작성할 수 있습니다.mpg |> group_by(model) 그렇다면 아래 코드와 같이 그룹화 변수를 따로 선언하고, 그 객체를 전달하면 어떨까요?group_vars group_by(group_vars)오류가 발생하네요? 도대체 무슨 차이가 있어서 이런 차이를 만드는 것일까요?group_by 함수는 인자로 받는 값을 변수명이라고 생각하고, 데이터 프레임에서 인자로 받은 값과 받은 열을 찾습니다.그래서 첫번째 코드에서는 mpg에 존재하는 "model"이라는 열을 기준으로 그룹화를 진행하는 것..