[Tidy Modeling with R] 5. 데이터 분할
·
Data Science/Modeling
모델을 구축하는 과정에는 파라미터 추정, 모델 선택, 하이퍼파라미터 튜닝, 성능 평가 등 여러 단계가 포함됩니다.사용할 수 있는 데이터의 양은 유한하다는 점입니다. 『Tidy Modeling with R』 에서는 이를 Data Budget(데이터 예산)이라는 개념으로 설명합니다.한정된 데이터를 여러 단계에서 반복적으로 사용하게 되면, 모델의 성능이 제대로 나오지 않을 위험이 커지게 됩니다.예를 들어, 모델 학습에 사용한 데이터를 그대로 평가에 사용한다면 실제보다 훨씬 좋아 보이는 성능이 측정될 수 있습니다.이는 시험 문제를 미리 알고 푸는 것과 유사하며, 정보 누수(data leakage)의 대표적인 사례입니다.이번 블로그에서는 이러한 문제를 방지하기 위한 데이터 분할(data splitting)을 살펴..