[Tidy Modeling with R] 10. Resampling
·
Data Science/Modeling
Chapter 10에서 모델의 성과를 평가하기 위한 방법으로 재표본기법(Resampling)에 대해 소개합니다.이전까지 많은 챕터에서 강조하고 있지만 Testing set은 여러 모델 중에서 선택된 최종 모델의 성능을 평가하기 때문에, 이전에 모델을 학습시킬 때는 어떠한 방식으로도 사용되어서는 안됩니다. 또한 단일 모델을 사용하더라도 하이퍼파라미터(Hyper Parameter)를 조정하거나, 여러 모델이 있는 경우 성능을 비교하기 위해서 Testing set을 사용하더라도 문제가 생깁니다. 따라서 이를 해결하기 위해 Resampling을 적용해 새로운 데이터와 유사한 성과를 추정하여야 합니다.  10 Resampling for Evaluating Performance | Tidy Modeling with..
[Tidy Modeling with R] 5. 데이터 분할
·
Data Science/Modeling
모델을 구축하는 과정에는 파라미터 추정, 모델 선택, 하이퍼파라미터 튜닝, 성능 평가 등 여러 단계가 포함됩니다.사용할 수 있는 데이터의 양은 유한하다는 점입니다. 『Tidy Modeling with R』 에서는 이를 Data Budget(데이터 예산)이라는 개념으로 설명합니다.한정된 데이터를 여러 단계에서 반복적으로 사용하게 되면, 모델의 성능이 제대로 나오지 않을 위험이 커지게 됩니다.예를 들어, 모델 학습에 사용한 데이터를 그대로 평가에 사용한다면 실제보다 훨씬 좋아 보이는 성능이 측정될 수 있습니다.이는 시험 문제를 미리 알고 푸는 것과 유사하며, 정보 누수(data leakage)의 대표적인 사례입니다.이번 블로그에서는 이러한 문제를 방지하기 위한 데이터 분할(data splitting)을 살펴..
[Tidy Modeling with R] 2. Tidyverse
·
Data Science/Modeling
패키지는 데이터 분석을 위한 패키지로 R에서 정말 많이 사용됩니다.이전 챕터에서 패키지가 패키지에 영감을 받아 만들어졌다고 소개했는데요.이에 챕터 2에서는 패키지의 철학과 어떻게 적용하는지에 대해 소개하고 있습니다. 1. Tidyverse Principles Design for Humans : 다양한 사람들이 쉽게 이해하고 사용할 수 있도록 설계Reuse existing Data Structures : 기존에 존재하는 데이터 구조를 반환해 빠른 이해가 가능Design for Pipe and Functional Programming : 파이프 라인과 함수형 프로그래밍에 적합 저도 처음에 맨땅에 헤딩으로 패키지를 사용했었는데요. 그때는 어떤 철학과 특징이 있는지 몰랐는 데 사용할수록 훌륭한 패키지라는..