[Tidy Modeling with R] 5. 데이터 분할
·
Data Science/Modeling
모델을 구축하는 과정에는 파라미터 추정, 모델 선택, 하이퍼파라미터 튜닝, 성능 평가 등 여러 단계가 포함됩니다.사용할 수 있는 데이터의 양은 유한하다는 점입니다. 『Tidy Modeling with R』 에서는 이를 Data Budget(데이터 예산)이라는 개념으로 설명합니다.한정된 데이터를 여러 단계에서 반복적으로 사용하게 되면, 모델의 성능이 제대로 나오지 않을 위험이 커지게 됩니다.예를 들어, 모델 학습에 사용한 데이터를 그대로 평가에 사용한다면 실제보다 훨씬 좋아 보이는 성능이 측정될 수 있습니다.이는 시험 문제를 미리 알고 푸는 것과 유사하며, 정보 누수(data leakage)의 대표적인 사례입니다.이번 블로그에서는 이러한 문제를 방지하기 위한 데이터 분할(data splitting)을 살펴..
[Tidy Modeling with R] 4. 부동산 데이터 탐색적 분석
·
Data Science/Modeling
4. EDA본 포스팅에서는 모델링에 활용할 미국 아이오와주 에임스(Ames) 지역의 주택 가격 데이터를 살펴보겠습니다.전체적인 흐름은 『Tidy Modeling with R』의 4장을 참고했으며, 이해를 돕기 위해 필요한 설명을 추가했습니다. 4 The Ames Housing Data | Tidy Modeling with RThe tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good method..
[Tidy Modeling with R] 2. Tidyverse
·
Data Science/Modeling
패키지는 데이터 분석을 위한 패키지로 R에서 정말 많이 사용됩니다.이전 챕터에서 패키지가 패키지에 영감을 받아 만들어졌다고 소개했는데요.이에 챕터 2에서는 패키지의 철학과 어떻게 적용하는지에 대해 소개하고 있습니다. 1. Tidyverse Principles Design for Humans : 다양한 사람들이 쉽게 이해하고 사용할 수 있도록 설계Reuse existing Data Structures : 기존에 존재하는 데이터 구조를 반환해 빠른 이해가 가능Design for Pipe and Functional Programming : 파이프 라인과 함수형 프로그래밍에 적합 저도 처음에 맨땅에 헤딩으로 패키지를 사용했었는데요. 그때는 어떤 철학과 특징이 있는지 몰랐는 데 사용할수록 훌륭한 패키지라는..
[Data Science With R] 2. 데이터 변형 (202405)
·
Data Science/Manipulation
1-1. filter( )로 조건에 맞는 행 선택설명 : 조건을 만족하는 모든 행을 남기는 데이터 프레임 서브셋팅(Subsetting) 함수조건의 결과가 TRUE인 모든 행을 남기며, FALSE나 NA를 반환 시에는 해당 행은 출력하지 않는다.dot-dot-dot (...)에 (논리)조건이 들어가며 여러 개의 조건이 들어가면 & 연산으로 묶여서 계산[advanced] Lazy Evaluation을 지원하므로 결과를 필요로 하기 전까지 필터링 조건을 평가하지 않음유용한 필터링 함수 논리연산자 : &(and), |(or), !(not), xorbetween(x, a, b) : [a, b]에 포함되는 x는 TRUE 반환x %in% y : x가 y에 포함되는지 반환하는 논리함수near(x, y, tol) : 부..