[Tidymodels] Bagging Model with IBM Churn data
·
Data Science/Modeling
1. 라이브러리 로드 및 데이터 준비아래와 같이 코드 실행에 필요한 라이브러리를 로드합니다.### 라이브러리 로드library(tidymodels)library(tidyverse)library(tidy.outliers)library(baguette)library(embed)library(earth)library(liver) 이번 모델링에는 하이퍼파라미터가 다수 존재하기 때문에, Train/Test set으로 분리한 후에 Train Data에 K=5인 k-fold CV를 적용하였습니다.### 데이터 로드 및 분리data(churn)churn_data % mutate_if(is.ordered, factor, ordered = FALSE)churn_split % vfold_cv(v = 5)churn_tes..
[Tidy Modeling with R] 16. 차원 축소(Dimensionality Reduction)
·
Data Science/Modeling
안녕하세요. 이번 포스팅에서는 PCA, PLS, ICA, UMAP와 같은 차원 축소 기법을 어떻게 적용하는지 알아보려고 합니다. 사실 기본적인 Tidy Modeling의 개념은 15에서 마무리 된 것으로 보이고요. 나머지 챕터는 모델링에 있어서 필요한 기법들을 깊게 살펴보는 느낌에 가깝더라고요. 17~19 챕터랑 21 챕터는 요약에서 생략할지 고민이 되긴하네요... 16 Dimensionality Reduction | Tidy Modeling with R The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a tho..
[Tidy Modeling with R] 15. Many Models with Workflow sets
·
Data Science/Modeling
책에서 4장부터 14장까지 모델링의 기초를 전부 다루었기에 15장에서는 이전에서 배운 것을 바탕으로 모델링의 과정에 대해 리마인드 겸 전체적으로 설명하는 것 처럼 보입니다. 간단하게 각 챕터마다 배운 것을 요약하면 아래와 같습니다. [4장] 모델링에 사용될 데이터(Ames Housing) EDA [5장] 데이터 풀을 Training data와 Testing data로 나눠야 하는 이유와 rsample 함수 소개 [6장] 패키지마다 모델링 인터페이스가 다른 것을 통일한 parsnip 패키지 설명과 함께 모델 구축, 적합, 예측 함수 소개 [7장] Model Workflow 소개 (workflow, workflow_set) [8장] Recipes 패키지를 이용한 Feature Engineering [9장] ..
[Tidy Modeling With R] 14. Iterative Search with XGBoost
·
Data Science/Modeling
0. 개요챕터 12에서부터 다루고 있는 하이퍼파라미터는 일반적인 파라미터와 다르게 학습데이터에서 직접적으로 추정할 수 없습니다. 챕터 13에서는 그리드서치(Grid Search)라는 방법을 통해 사전에 지정해놓은 여러개의 후보들을 평가하는 내용을 다루었습니다.챕터 14에서는 Iterative Search이라는 방법을 소개하는데, 현재 주어진 하이퍼파라미터의 값들을 통해 스스로 성능이 좋을 것으로 기대되는 하이퍼파라미터 값을 예측하고 평가하는 방식으로 최적의 값을 찾아냅니다.  14 Iterative Search | Tidy Modeling with RThe tidymodels framework is a collection of R packages for modeling and machine learnin..
[Tidy Modeling With R] 13. Grid Search with XGBoost
·
Data Science/Modeling
그동안 Tidymodels를 통해 parsnip 모델과 formula 또는 recipe 전처리기를 포함하는 워크플로 객체를 생성했습니다.이때, 회귀계수와 같은 파라미터는 훈련 데이터만을 사용하여 값을 추정할 수 있었고 검증 데이터나 테스트 데이터에 대한 성과 지표(MSE, AUC)를 측정해 퍼포먼스가 얼마나 좋은지 판단할 수 있었습니다.다만 저번 챕터에서 훈련 데이터로는 값을 추정할 수 없는 하이퍼파라미터에 대해 언급하였고 tune 함수를 통해 하이퍼파라미터를 지정할 수 있음을 배웠습니다. 이번 포스팅은 이렇게 지정된 하이퍼파라미터를 튜닝하는 방법 중 하나인 그리드서치(Grid Search)에 대해 소개하는 챕터 13에 대해 알아보려고 합니다.  13 Grid Search | Tidy Modeling w..
[Tidy Modeling with R] 12. 하이퍼파라미터 튜닝
·
Data Science/Modeling
예측을 하기 위해 모델을 사용하는 경우 모델에 존재하는 파라미터는 예측하기 전에 추정되어야 합니다. OLS 회귀모델의 회귀계수처럼 일부 파라미터는 Training set을 통해 직접 추정될 수 있습니다. 하지만 튜닝파라미터(Tuning parameter)나 하이퍼파라미터(Hyper-Parameter)는 모델을 적합하기 전에 미리 명시가 되어있어야 하므로 Training set을 통해 직접 추정될 수 없습니다. 예측이나 추론에 중요한 영향을 끼치지만 훈련데이터로부터 직접 추정될 수 없기 때문에 기존 방식과는 다르게 접근해야 합니다. 챕터 12에서는 튜닝파라미터의 예시를 제공하고 tidymodels 함수가 어떻게 튜닝 파라미터를 다루는지 보여주며 챕터 13에서는 그리드서치(Grid Search), 챕터 14..
[Tidy Modeling with R] 11. Model Comparison (모델 비교)
·
Data Science/Modeling
11 Comparing Models with Resampling | Tidy Modeling with RThe tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phaseswww.tmwr.org   만약 모델을 두개 이상 만들었다면, 이제는 최고의 모델을 선택하기 위해서 모델의 성능을 서로 비교해야 합니다. 모델 비교(M..
[Tidy Modeling with R] 10. Resampling
·
Data Science/Modeling
Chapter 10에서 모델의 성과를 평가하기 위한 방법으로 재표본기법(Resampling)에 대해 소개합니다.이전까지 많은 챕터에서 강조하고 있지만 Testing set은 여러 모델 중에서 선택된 최종 모델의 성능을 평가하기 때문에, 이전에 모델을 학습시킬 때는 어떠한 방식으로도 사용되어서는 안됩니다. 또한 단일 모델을 사용하더라도 하이퍼파라미터(Hyper Parameter)를 조정하거나, 여러 모델이 있는 경우 성능을 비교하기 위해서 Testing set을 사용하더라도 문제가 생깁니다. 따라서 이를 해결하기 위해 Resampling을 적용해 새로운 데이터와 유사한 성과를 추정하여야 합니다.  10 Resampling for Evaluating Performance | Tidy Modeling with..