[Tidy Modeling with R] 5. Data Spliting (데이터 분할)
·
Data Science/Modeling
최종 모델을 만들기 위해서는 파라미터 추정, 모델 선택, 하이퍼 파라미터 튜닝, 성과비교 등의 몇가지 단계가 있습니다.보통 초기 프로젝트 단계에서는 사용할 수 있는 데이터가 존재하는데 이를 가용할 수 있는 데이터(available data budget)로 생각할 수 있습니다. 사용할 수 있는 데이터의 수는 정해져 있는데 모델 구축의 또 다른 단계에서 재사용된다면 완전한 모델을 생성하는데 리스크(risk)를 증가시킬 수 있습니다. 예를 들면, 모델을 학습시킬때 사용한 데이터를 그대로 모델을 평가하는데 사용하면 분명히 컨닝을 한 것처럼 성능이 좋게 나올 것입니다. Chapter 5에서는 이를 해결할 수 있는 data splitting(데이터 분할)에 대해 알아봅시다. 5 Spending our Data | ..
[Tidy Modeling with R] 4. Ames Housing Data
·
Data Science/Modeling
4장에서는 Ames 주택 데이터에 대해 소개합니다. 4 The Ames Housing Data | Tidy Modeling with RThe tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phaseswww.tmwr.org탐색적 데이터 분석은 신뢰할 수 있는 모델을 구축하기 위해서 중요한 과정입니다.데이터셋은 아래와 같..
[Tidy Modeling with R] 3. R Modeling Fundamentals
·
Data Science/Modeling
이번 포스팅에서는 3장의 R 모델링 기본원리에 대해 알아보기 위해 온도와 분당 귀뚜라미의 울음 비율 사이의 관계를 살펴보는 것으로 시작합니다.우선 전체 데이터에 대해 loess 평활 회귀을 적합하여 추가한 그래프와 각 종별 데이터를 사용하여 적합한 선형회귀의 그래프를 그려보았습니다.crickets %>% ggplot(mapping=aes(x=temp, y=rate)) + geom_point() + geom_smooth(method = "loess")crickets %>% ggplot(mapping=aes(x=temp, y=rate, color=species)) + geom_point() + geom_smooth(method="lm")우선, data-driven 방법인 loess 평활 회귀에서 보면 ..
[Tidy Modeling with R] 2. Tidyverse
·
Data Science/Modeling
제가 제일 애용하는 Tidyverse 패키지는 데이터 분석을 위한 체계적인 패키지입니다.챕터 2에서는 tidyverse 패키지가 왜 중요한지에 대해서 논의하며 이를 어떻게 적용하는지에 대해 서술하고 있습니다. 1. Tidyverse Principles Design for Humans : 다양한 사람들이 쉽게 이해하고 사용할 수 있는 R패키지와 기능을 설계Reuse existing Data Structures : 기존에 존재하는 데이터 구조를 반환하여 인지 부하를 줄일 수 있음Design for Pipe and Functional Programming : 파이프 라인은 가독성이 좋으며 함수형 프로그래밍은 반복문을 대체할 수 있음 2. Examples of Tidyverse Syntax2절에서는 Tidyve..
[Tidy Modeling with R] 1. Software for modeling
·
Data Science/Modeling
모델은 시스템을 설명하거나 데이터의 관계를 포착할 수 있는 수학적 도구로 다양한 목적으로 사용될 수 있습니다.미래에 발생할 사건을 예측(Prediction)하거나, 여러 그룹에서 차이가 있는지 검정하고 싶을 때 혹은 특이한 패턴을 발견하기 위한 목적을 포함해서 말이죠.모델의 목적은 복잡한 관계를 간단하게 표현하는데 있으며 데이터에 존재하는 관계를 수식을 통해 유용하게 표현할 수 있습니다.이 장에서는 모델링 소프트웨어 구축 또는 선택 시 고려 사항, 모델의 목적, 광범위한 데이터 분석 프로세스에서 모델링이 수행되는 위치에 대해 간략하게 설명합니다. 1 Software for modeling | Tidy Modeling with RThe tidymodels framework is a collection of..
[Tidy Modeling with R] 0. 서론
·
Data Science/Modeling
안녕하세요. "Tidy modeling with R"의 서론에 대한 간단한 정리를 포스팅하려고 합니다.https://www.tmwr.org/ 사이트를 통해 영문 원서를 확인할 수 있습니다. Tidymodels는 모델 구축과 관련한 패키지들을 모아놓았으며 (통계, 머신러닝) 모델을 생성하기 위한 실용적인 방법을 소개합니다. 또한 통계적 문제에 집중하여 사소한 문제들을 해결하도록 합니다.  Chapter 1에서는 모델 분류에 대한 개요를 살펴보고 모델링을 위한 좋은 소프트웨어가 무엇인지 설명합니다.Chapter 2에서 tidyverse의 아이디어와 구문(Syntax)에 대해 소개합니다. tidyverse는 tidymodels 패키지를 사용하는데 기초가 됩니다. (정말 많이!)Chapter 3에서는 기존 Ba..
[Visualization with R] 1. Bar Chart (막대 그래프)
·
Data Science/Visualization
안녕하세요. R로 하는 시각화 첫번째 포스팅으로 막대 그래프에 대해 알아보려고 합니다. 막대 그래프는 시각화에서 많이 사용하는 그래프 중 하나로 주로 그룹(범주형)별 빈도, 비율, 값을 나타낼 때 많이 사용됩니다. 예를 들면, 부서별 판매실적이나 연령대에 따른 선호도, 실험에 참여한 사람들의 MBTI 빈도를 나타낼 때 효과적입니다. 막대그래프는 크게 범주별 빈도를 나타낼 때와 범주에 따른 값이 주어졌을 때 시각적으로 표현할 수 있습니다. 예를 들면, 다음과 같이 Iris의 행을 랜덤으로 추출하였을 때, 종(Species)별 빈도가 어떻게 나타날 지 궁금할 수 있겠죠? iris_sample % slice_sample(n=50) 해당 데이터에서는 종은 versicolor, setosa, virginica 3..
[R] slice함수 : 위치를 이용한 행 선택 (Subset rows using position)
·
Data Science/Manipulation
안녕하세요. 이번 포스팅에서는 생각보다 자주 사용하는 함수를 소개하려고 합니다.tidyverse 패키지에서는 주로 filter 함수를 이용해서 원하는 행을 가져오는데요. 이번에 소개할 함수는 행의 위치에 맞는 데이터를 가져오는 dplyr 패키지의 slice 계열 함수입니다.slice() lets you index rows by their (integer) locations. It allows you to select, remove, and duplicate rows. It is accompanied by a number of helpers for common use cases:( slice()를 사용하면 행을 (정수) 위치별로 인덱싱할 수 있습니다. 행을 선택, 제거 및 복제할 수 있습니다. 일반적인 사..