[Tidy Modeling with R] 10. Resampling
·
Data Science/Modeling
Chapter 10에서 모델의 성과를 평가하기 위한 방법으로 재표본기법(Resampling)에 대해 소개합니다.이전까지 많은 챕터에서 강조하고 있지만 Testing set은 여러 모델 중에서 선택된 최종 모델의 성능을 평가하기 때문에, 이전에 모델을 학습시킬 때는 어떠한 방식으로도 사용되어서는 안됩니다. 또한 단일 모델을 사용하더라도 하이퍼파라미터(Hyper Parameter)를 조정하거나, 여러 모델이 있는 경우 성능을 비교하기 위해서 Testing set을 사용하더라도 문제가 생깁니다. 따라서 이를 해결하기 위해 Resampling을 적용해 새로운 데이터와 유사한 성과를 추정하여야 합니다.  10 Resampling for Evaluating Performance | Tidy Modeling with..
[Tidy Modeling with R] 6. Model Fitting with parsnip
·
Data Science/Modeling
이번 포스팅에서는 parsnip 패키지를 이용한 모델 구축에 대해 알아보겠습니다.parsnip 패키지는 타이디(=일관성 있고)하고 통합된 모델 구축의 인터페이스를 제공합니다.  1. 모델 생성 및 학습 (Creating Model and Training)일단 데이터가 모델링에 사용할 수 있게 인코딩이 된다면, 모델링 적합을 위해 사용할 수 있습니다.첫 모델로 선형 회귀에 대해 생각해봅시다. 선형회귀에서는 종속변수가 정량적인 수치로 구성되어 있고, 독립변수의 효과는 아래와 같이 회귀식의 회귀계수(기울기)와 절편으로 표현할 수 있습니다.$$y_i = \beta_0 +\beta_1*x_1 + \beta_2*x_2 + \dots + \beta_p*x_p$$회귀계수를 추정하기 위해서 다양한 방법들이 있는데요. 대..