[Tidy Modeling With R] 13. Grid Search with XGBoost
·
Data Science/Modeling
그동안 Tidymodels를 통해 parsnip 모델과 formula 또는 recipe 전처리기를 포함하는 워크플로 객체를 생성했습니다.이때, 회귀계수와 같은 파라미터는 훈련 데이터만을 사용하여 값을 추정할 수 있었고 검증 데이터나 테스트 데이터에 대한 성과 지표(MSE, AUC)를 측정해 퍼포먼스가 얼마나 좋은지 판단할 수 있었습니다.다만 저번 챕터에서 훈련 데이터로는 값을 추정할 수 없는 하이퍼파라미터에 대해 언급하였고 tune 함수를 통해 하이퍼파라미터를 지정할 수 있음을 배웠습니다. 이번 포스팅은 이렇게 지정된 하이퍼파라미터를 튜닝하는 방법 중 하나인 그리드서치(Grid Search)에 대해 소개하는 챕터 13에 대해 알아보려고 합니다.  13 Grid Search | Tidy Modeling w..
[Tidy Modeling with R] 12. 하이퍼파라미터 튜닝
·
Data Science/Modeling
예측을 하기 위해 모델을 사용하는 경우 모델에 존재하는 파라미터는 예측하기 전에 추정되어야 합니다. OLS 회귀모델의 회귀계수처럼 일부 파라미터는 Training set을 통해 직접 추정될 수 있습니다. 하지만 튜닝파라미터(Tuning parameter)나 하이퍼파라미터(Hyper-Parameter)는 모델을 적합하기 전에 미리 명시가 되어있어야 하므로 Training set을 통해 직접 추정될 수 없습니다. 예측이나 추론에 중요한 영향을 끼치지만 훈련데이터로부터 직접 추정될 수 없기 때문에 기존 방식과는 다르게 접근해야 합니다. 챕터 12에서는 튜닝파라미터의 예시를 제공하고 tidymodels 함수가 어떻게 튜닝 파라미터를 다루는지 보여주며 챕터 13에서는 그리드서치(Grid Search), 챕터 14..
[Tidy Modeling with R] 11. Model Comparison (모델 비교)
·
Data Science/Modeling
11 Comparing Models with Resampling | Tidy Modeling with RThe tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phaseswww.tmwr.org   만약 모델을 두개 이상 만들었다면, 이제는 최고의 모델을 선택하기 위해서 모델의 성능을 서로 비교해야 합니다. 모델 비교(M..
[Tidy Modeling with R] 10. Resampling
·
Data Science/Modeling
Chapter 10에서 모델의 성과를 평가하기 위한 방법으로 재표본기법(Resampling)에 대해 소개합니다.이전까지 많은 챕터에서 강조하고 있지만 Testing set은 여러 모델 중에서 선택된 최종 모델의 성능을 평가하기 때문에, 이전에 모델을 학습시킬 때는 어떠한 방식으로도 사용되어서는 안됩니다. 또한 단일 모델을 사용하더라도 하이퍼파라미터(Hyper Parameter)를 조정하거나, 여러 모델이 있는 경우 성능을 비교하기 위해서 Testing set을 사용하더라도 문제가 생깁니다. 따라서 이를 해결하기 위해 Resampling을 적용해 새로운 데이터와 유사한 성과를 추정하여야 합니다.  10 Resampling for Evaluating Performance | Tidy Modeling with..
[Tidy Modeling with R] 9. Performance Metrics (모델 성과 지표)
·
Data Science/Modeling
0. 개요이번 시간에는 yardstick 패키지를 사용한 모델의 성과 지표에 대해서 알아보려고 합니다.우선 본격적인 소개에 앞서 해변가에서 핸드메이드 아이스크림을 판매하고 있다고 생각해 봅시다. 판매하는 입장에서 최고의 전략은 판매 될 아이스크림의 수를 예측하여 해당 수량의 재료만큼 준비하여 버리는 것 없이 최대의 수익을 버는거겠죠. 반면에 100개 만큼의 아이스크림이 팔릴거라고 예측했으나 30개밖에 못팔았다면 남은 70개에 해당하는 재료를 버려야 하고 100개 만큼의 아이스크림이 팔릴거라고 에측했으나 300명의 손님이 찾아온다면 아이스크림 200개 대한 이득은 벌지 못하는거죠. 이처럼, 관심있는 수량을 정확하게 예측할 수 있다면 좋은데요 어떻게 미래의 아이스크림의 수를 예측할 수 있을까요?아이스크림의 ..
[Tidy Modeling with R] 8. Feature Engineering with Recipes
·
Data Science/Modeling
피처 엔지니어링(Feature Engineering)은 머신러닝이나 딥러닝에서 모델의 성능을 향상시키기 위해서 변수를 변환하는 과정을 포함합니다. 대표적으로 하나 또는 두개 이상의 변수들을 활용하여 새로운 파생변수를 생성하거나, 표준화나 정규화를 사용해 스케일을 조정하거나, 범주형 (명목형, 순서형) 변수들을 더미화&수치화해서 사용한다거나, PCA를 사용해서 기존 변수들을 새롭게 표현하다거나, 상관계수를 이용해서 변수를 제거한다거나, 결측치를 대치(Imputation)하는 등 여러가지 방법들을 포함하고 있습니다. 예를 들면 두 개의 설명변수 $X1$, $X2$ 가 있고 반응변수 $Y$에 대해 OLS 선형회귀를 적합한다고 생각해봅시다.이때, $Y$는 면적을 나타내며 $X1$, $X2$는 직사각형의 너비와 ..
[Tidy Modeling with R] 7. Model Workflow
·
Data Science/Modeling
지난 포스팅에서는 parsnip 패키지를 사용하여 모델 구축과 적합 그리고 예측하는 방법에 대해 알아보았습니다.이번 포스팅에서는 7장의 "A Model Workflow"에 대해 공부한 것을 요약하려고 합니다. 해당 챕터의 목적은 모델링 과정의 주요 부분을 캡슐화(encapsulate)하는 것입니다.   7 A Model Workflow | Tidy Modeling with RThe tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, a..
[Tidy Modeling with R] 6. Model Fitting with parsnip
·
Data Science/Modeling
이번 포스팅에서는 parsnip 패키지를 이용한 모델 구축에 대해 알아보겠습니다.parsnip 패키지는 타이디(=일관성 있고)하고 통합된 모델 구축의 인터페이스를 제공합니다.  1. 모델 생성 및 학습 (Creating Model and Training)일단 데이터가 모델링에 사용할 수 있게 인코딩이 된다면, 모델링 적합을 위해 사용할 수 있습니다.첫 모델로 선형 회귀에 대해 생각해봅시다. 선형회귀에서는 종속변수가 정량적인 수치로 구성되어 있고, 독립변수의 효과는 아래와 같이 회귀식의 회귀계수(기울기)와 절편으로 표현할 수 있습니다.$$y_i = \beta_0 +\beta_1*x_1 + \beta_2*x_2 + \dots + \beta_p*x_p$$회귀계수를 추정하기 위해서 다양한 방법들이 있는데요. 대..