'분류 전체보기' 카테고리의 글 목록 (2 Page)

이번 포스팅에서는 주축량과 이를 이용한 신뢰구간 계산하는 방법에 대해 알아보겠습니다. 1. 주축량(Pivotal Quantity)이란?주축량은 함수 Q에 대해 다음과 같은 성질을 만족하는 경우 주축량(Pivotal Quantity)이라고 합니다.정의$Q(X_1, X_2, \ldots, X_n ; \theta)$의 분포가 모수 $\theta$에 의존하지 않는다면, 이를 주축량이라고 합니다 2. 정규분포에서의 예시예전에 평균에 관한 구간 추정을 다룬 적이 있었는데요. (https://moogie.tistory.com/132)만약 $X_1, X_2, \ldots, X_n \sim N(\mu, \sigma^2)$인 random sample에 대해 표본평균 $\overline{X}=\frac{\sum_i X_i}..

다른 블로그에도 관련된 내용이 없거나 적고 스스로 rlang과 관련된 내용 정리가 필요한 것 같아 포스팅을 올리게 되었습니다. mpg라는 데이터프레임에서 "model"이라는 열을 기준으로 그룹화를 한다면 아래와 같이 작성할 수 있습니다.mpg |> group_by(model) 그렇다면 아래 코드와 같이 그룹화 변수를 따로 선언하고, 그 객체를 전달하면 어떨까요?group_vars group_by(group_vars)오류가 발생하네요? 도대체 무슨 차이가 있어서 이런 차이를 만드는 것일까요?group_by 함수는 인자로 받는 값을 변수명이라고 생각하고, 데이터 프레임에서 인자로 받은 값과 받은 열을 찾습니다.그래서 첫번째 코드에서는 mpg에 존재하는 "model"이라는 열을 기준으로 그룹화를 진행하는 것..

1. match.call간혹 함수를 짜다보면 입력한 인수를 사용했는지 확인이 필요 할 때가 있습니다.예를 들어, 데이터 프레임에서 특정 열의 Five-Number Summary($\min$, $q_1$, $m$, $q_3$, $\max$)를 해당 데이터 프레임의 이름과 함께 출력하는 함수를 아래와 같이 작성해보았습니다.fivenum_col 결과는 에러가 발생하는데요!왜냐하면, df를 출력하면 iris의 데이터프레임을 출력하기 때문에 문자열 출력 함수와 호환되지 않기 때문입니다.이런 에러를 방지하기 위해서 match.call 함수를 사용하는데 인자와 입력된 글자를 호출하는 함수입니다.fivenum_col 2. 익명함수(anonymous functions)파이썬의 람다 함수처럼 익명 함수를 지원합니다...

예전 포스팅(https://moogie.tistory.com/145)에서 여러 종류의 상관계수에 대해 알아봤었는데, 이번에는 상관계수 시각화에 대해 포스팅합니다. [EDA] Correlation (상관계수) - Pearson, Spearman, Kendall, XI안녕하세요! 이번 포스팅에서는 상관계수에 대해 좋은 논문이 있어서 간단하게 소개드립니다. 캐글이나 데이콘에서 데이터 탐색 파트를 살펴보면 Pearson 상관계수나, Spearman 상관계수를 많이 사moogie.tistory.com 1. 히트맵 형식의 시각화기본적으로 데이터로부터 상관계수 시각화를 하려면 각 변수간의 상관계수를 구해야합니다.R에서는 cor함수를 사용하여 상관행렬을 구할 수 있지만 matrix 클래스의 객체이므로 시각화를 위해 적..

데이터 분석 쪽으로 취업 준비를 하면서 여러가지 프로젝트에 참여해서 많은 경험을 쌓는 것을 목표로 하던 와중에네이버 커넥트 재단과 모두의 연구소에서 진행하는 [부스트코스 : 코칭스터디] 프로젝트가 매력적이라서 참여하게 되었다. 데이터 사이언스를 공부하다가 모르는 부분이 있으면 강사님을 포함해 현업에서 종사하고 계시는 많은 분들에게 도움을 받을 수 있고초면인 분들과 함께 프로젝트를 할 수 있어서 도움이 될 것이라고 생각했다! 모집기간은 2023년 12월 7일부터 2024년 1월 2일까지로 꽤 긴편이였고 지원링크를 통해 지원할 수 있는데 부스터(팀원)과 리더부스터(팀장)을 선택할 수 있었다. 비록 코칭스터디는 처음이지만 이전에 스터디를 여러번 해보기도 했고 공모전 경험도 있어서 자신있게 리더부스터로 지원..

안녕하세요! 이번 포스팅에서는 상관계수에 대해 좋은 논문이 있어서 간단하게 소개드립니다. 캐글이나 데이콘에서 데이터 탐색 파트를 살펴보면 Pearson 상관계수나, Spearman 상관계수를 많이 사용하더라고요. 두 상관계수 모두 훌륭한 측정치로 두 변수가 선형적이거나 단조관계일 때 수치적으로 잘 나타낼 수 있습니다. 하지만, 두 상관계수 모두 변수가 대칭적인 관계나 주기적인 패턴을 보이고 있는 경우에는 효과적이지 않은데요! 이런 경우 오늘 소개할 XI Correlation을 사용하여 효과적으로 나타낼 수 있으며 아래 PPT를 확인해주세요! 0. Correlation 소개 1. 시각화 함수 작성 우선 R로 작성한 함수는 ("x"와 "y" 변수가 있는) 데이터 프레임이 주어졌을 때, 기존에 많이 사용하는 ..

안녕하세요. 이번 포스팅에서는 의사결정나무에 대해 알아보겠습니다. 1. 트리의 원리한국인이라면 어릴 적 한 번쯤은 스무고개 게임을 해보셨을 것이라 생각합니다.정답에 대해 질문을 던지고, 그에 대한 예 / 아니요의 답변을 바탕으로 점점 범위를 좁혀가며 정답을 맞혀가는 게임입니다.오늘 알아볼 의사결정나무(Decision Tree) 역시 이러한 스무고개 게임과 매우 유사한 방식으로 동작합니다.의사결정나무는 매 분기마다 설명변수 $$x_1, x_2, \cdots, x_p$$가 구성하는 전체 표본 공간(Sample Space)을 더 작은 부분 공간(Sub space)들로 나누어 나갑니다.매 분할(Split) 과정에서 여러 개의 부분 공간으로 나뉠 수 있지만, 각 영역은 서로 겹치지 않는(disjoint) 공간이라..

1. 라이브러리 로드 및 데이터 준비아래와 같이 코드 실행에 필요한 라이브러리를 로드합니다.### 라이브러리 로드library(tidymodels)library(tidyverse)library(tidy.outliers)library(baguette)library(embed)library(earth)library(liver) 이번 모델링에는 하이퍼파라미터가 다수 존재하기 때문에, Train/Test set으로 분리한 후에 Train Data에 K=5인 k-fold CV를 적용하였습니다.### 데이터 로드 및 분리data(churn)churn_data % mutate_if(is.ordered, factor, ordered = FALSE)churn_split % vfold_cv(v = 5)churn_tes..

티스토리툴바