주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 이론
·
Statistics/Mathmetical Statistics
이번 포스팅에서는 주축량과 이를 이용한 신뢰구간 계산하는 방법에 대해 알아보겠습니다. 1. 주축량(Pivotal Quantity)이란?주축량은 함수 Q에 대해 다음과 같은 성질을 만족하는 경우 주축량(Pivotal Quantity)이라고 합니다.정의$Q(X_1, X_2, \ldots, X_n ; \theta)$의 분포가 모수 $\theta$에 의존하지 않는다면, 이를 주축량이라고 합니다 2. 정규분포에서의 예시예전에 평균에 관한 구간 추정을 다룬 적이 있었는데요. (https://moogie.tistory.com/132)만약 $X_1, X_2, \ldots, X_n \sim N(\mu, \sigma^2)$인 random sample에 대해 표본평균 $\overline{X}=\frac{\sum_i X_i}..
[R] rlang으로 하는 동적 변수 참조와 환경(Environment)
·
Data Science/Manipulation
다른 블로그에도 관련된 내용이 없거나 적고 스스로 rlang과 관련된 내용 정리가 필요한 것 같아 포스팅을 올리게 되었습니다. mpg라는 데이터프레임에서 "model"이라는 열을 기준으로 그룹화를 한다면 아래와 같이 작성할 수 있습니다.mpg |> group_by(model) 그렇다면 아래 코드와 같이 그룹화 변수를 따로 선언하고, 그 객체를 전달하면 어떨까요?group_vars group_by(group_vars)오류가 발생하네요? 도대체 무슨 차이가 있어서 이런 차이를 만드는 것일까요?group_by 함수는 인자로 받는 값을 변수명이라고 생각하고, 데이터 프레임에서 인자로 받은 값과 받은 열을 찾습니다.그래서 첫번째 코드에서는 mpg에 존재하는 "model"이라는 열을 기준으로 그룹화를 진행하는 것..
[R] 사용자 정의 함수 관련 잡기술
·
Data Science/Manipulation
1. match.call간혹 함수를 짜다보면 입력한 인수를 사용했는지 확인이 필요 할 때가 있습니다.예를 들어, 데이터 프레임에서 특정 열의 Five-Number Summary($\min$, $q_1$, $m$, $q_3$, $\max$)를 해당 데이터 프레임의 이름과 함께 출력하는 함수를 아래와 같이 작성해보았습니다.fivenum_col 결과는 에러가 발생하는데요!왜냐하면, df를 출력하면 iris의 데이터프레임을 출력하기 때문에 문자열 출력 함수와 호환되지 않기 때문입니다.이런 에러를 방지하기 위해서 match.call 함수를 사용하는데 인자와 입력된 글자를 호출하는 함수입니다.fivenum_col 2. 익명함수(anonymous functions)파이썬의 람다 함수처럼 익명 함수를 지원합니다...
[EDA] 상관계수 시각화 (Visualization of Correlation Coefficient) with R
·
Data Science/Manipulation
예전 포스팅(https://moogie.tistory.com/145)에서 여러 종류의 상관계수에 대해 알아봤었는데, 이번에는 상관계수 시각화에 대해 포스팅합니다. [EDA] Correlation (상관계수) - Pearson, Spearman, Kendall, XI안녕하세요! 이번 포스팅에서는 상관계수에 대해 좋은 논문이 있어서 간단하게 소개드립니다. 캐글이나 데이콘에서 데이터 탐색 파트를 살펴보면 Pearson 상관계수나, Spearman 상관계수를 많이 사moogie.tistory.com 1. 히트맵 형식의 시각화기본적으로 데이터로부터 상관계수 시각화를 하려면 각 변수간의 상관계수를 구해야합니다.R에서는 cor함수를 사용하여 상관행렬을 구할 수 있지만 matrix 클래스의 객체이므로 시각화를 위해 적..
[부스트코스] Data Science Project 리드부스터 후기 (with 네이버 커넥트재단)
·
활동 및 프로젝트
데이터 분석 쪽으로 취업 준비를 하면서 여러가지 프로젝트에 참여해서 많은 경험을 쌓는 것을 목표로 하던 와중에네이버 커넥트 재단과 모두의 연구소에서 진행하는 [부스트코스 : 코칭스터디] 프로젝트가 매력적이라서 참여하게 되었다. 데이터 사이언스를 공부하다가 모르는 부분이 있으면 강사님을 포함해 현업에서 종사하고 계시는 많은 분들에게 도움을 받을 수 있고초면인 분들과 함께 프로젝트를 할 수 있어서 도움이 될 것이라고 생각했다!   모집기간은 2023년 12월 7일부터 2024년 1월 2일까지로 꽤 긴편이였고 지원링크를 통해 지원할 수 있는데 부스터(팀원)과 리더부스터(팀장)을 선택할 수 있었다. 비록 코칭스터디는 처음이지만 이전에 스터디를 여러번 해보기도 했고 공모전 경험도 있어서 자신있게 리더부스터로 지원..
[EDA] Correlation (상관계수) - Pearson, Spearman, Kendall, XI
·
AI/Machine Learning
안녕하세요! 이번 포스팅에서는 상관계수에 대해 좋은 논문이 있어서 간단하게 소개드립니다. 캐글이나 데이콘에서 데이터 탐색 파트를 살펴보면 Pearson 상관계수나, Spearman 상관계수를 많이 사용하더라고요. 두 상관계수 모두 훌륭한 측정치로 두 변수가 선형적이거나 단조관계일 때 수치적으로 잘 나타낼 수 있습니다. 하지만, 두 상관계수 모두 변수가 대칭적인 관계나 주기적인 패턴을 보이고 있는 경우에는 효과적이지 않은데요! 이런 경우 오늘 소개할 XI Correlation을 사용하여 효과적으로 나타낼 수 있으며 아래 PPT를 확인해주세요! 0. Correlation 소개 1. 시각화 함수 작성 우선 R로 작성한 함수는 ("x"와 "y" 변수가 있는) 데이터 프레임이 주어졌을 때, 기존에 많이 사용하는 ..
[Regression & Classifcation] Decision Tree
·
AI/Machine Learning
안녕하세요. 이번 포스팅에서는 의사결정나무에 대해 알아보겠습니다. 1. 트리의 원리한국인이라면 어릴 적 한 번쯤은 스무고개 게임을 해보셨을 것이라 생각합니다.정답에 대해 질문을 던지고, 그에 대한 예 / 아니요의 답변을 바탕으로 점점 범위를 좁혀가며 정답을 맞혀가는 게임입니다.오늘 알아볼 의사결정나무(Decision Tree) 역시 이러한 스무고개 게임과 매우 유사한 방식으로 동작합니다.의사결정나무는 매 분기마다 설명변수 $$x_1, x_2, \cdots, x_p$$가 구성하는 전체 표본 공간(Sample Space)을 더 작은 부분 공간(Sub space)들로 나누어 나갑니다.매 분할(Split) 과정에서 여러 개의 부분 공간으로 나뉠 수 있지만, 각 영역은 서로 겹치지 않는(disjoint) 공간이라..
[Tidymodels] Bagging Model with IBM Churn data
·
Data Science/Modeling
1. 라이브러리 로드 및 데이터 준비아래와 같이 코드 실행에 필요한 라이브러리를 로드합니다.### 라이브러리 로드library(tidymodels)library(tidyverse)library(tidy.outliers)library(baguette)library(embed)library(earth)library(liver) 이번 모델링에는 하이퍼파라미터가 다수 존재하기 때문에, Train/Test set으로 분리한 후에 Train Data에 K=5인 k-fold CV를 적용하였습니다.### 데이터 로드 및 분리data(churn)churn_data % mutate_if(is.ordered, factor, ordered = FALSE)churn_split % vfold_cv(v = 5)churn_tes..