
[Tidy Modeling with R] 5. Data Spliting (데이터 분할)
·
Data Science/Modeling
최종 모델을 만들기 위해서는 파라미터 추정, 모델 선택, 하이퍼 파라미터 튜닝, 성과비교 등의 몇가지 단계가 있습니다.보통 초기 프로젝트 단계에서는 사용할 수 있는 데이터가 존재하는데 이를 가용할 수 있는 데이터(available data budget)로 생각할 수 있습니다. 사용할 수 있는 데이터의 수는 정해져 있는데 모델 구축의 또 다른 단계에서 재사용된다면 완전한 모델을 생성하는데 리스크(risk)를 증가시킬 수 있습니다. 예를 들면, 모델을 학습시킬때 사용한 데이터를 그대로 모델을 평가하는데 사용하면 분명히 컨닝을 한 것처럼 성능이 좋게 나올 것입니다. Chapter 5에서는 이를 해결할 수 있는 data splitting(데이터 분할)에 대해 알아봅시다. 5 Spending our Data | ..