모델은 시스템을 설명하거나 데이터의 관계를 포착할 수 있는 수학적 도구로 다양한 목적으로 사용될 수 있습니다.
미래에 발생할 사건을 예측(Prediction)하거나, 여러 그룹에서 차이가 있는지 검정하고 싶을 때 혹은 특이한 패턴을 발견하기 위한 목적을 포함해서 말이죠.
모델의 목적은 복잡한 관계를 간단하게 표현하는데 있으며 데이터에 존재하는 관계를 수식을 통해 유용하게 표현할 수 있습니다.
이 장에서는 모델링 소프트웨어 구축 또는 선택 시 고려 사항, 모델의 목적, 광범위한 데이터 분석 프로세스에서 모델링이 수행되는 위치에 대해 간략하게 설명합니다.
1 Software for modeling | Tidy Modeling with R
The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phases
www.tmwr.org
1. Fundamentals of modeling software (모델링 소프트웨어의 기본 사항)
- 소프트웨어는 UI를 포함해 사용자가 작동하기 쉬워야 합니다.
- 품질이 좋은 모델을 만들기 위해서 소프트웨어는 적절한 사용이 가능하도록 제공되어야 합니다.
- 모델링 소프트웨어는 과학적이고 통계적인 근거를 제공해야 합니다. (다만 복잡한 모델일수록 기본 가정이나 논리적 오류를 범할 가능성이 높아짐)
- 즉, 소프트웨어는 고성능 모델을 생성할 만큼 강력해야 하지만 적절하게 사용할 수 있어야 한다!
2. Types of Models (모델의 종류)
- Descriptive Model (설명 모델) : 데이터의 특성이나 추세를 설명하는 목적
- loess 모델은 데이터의 일부 추세를 설명하는데 사용될 수 있음
- Inferential Model (추론 모델) : 연구 질문에 대한 결정을 내리거나 특정 가설을 탐색하기 위한 목적으로 사용되며 가정으로 시작하여 구간 추정이나 가설 채택/기각과 같은 통계적 결론을 내릴 수 있음
- 추론 모델을 만들기 위해 데이터나 데이터 생성 과정(DGP)에 확률론적 가정이 필요함
- Predictive Model (예측 모델) : 기존의 데이터를 사용해 새로운 데이터가 주어졌을 때, 가장 높은 정확도를 가지는 예측값을 출력하려는 목적
- 데이터와 관련된 가설을 평가하는 것보다는 데이터 값 자체에 관심이 있음
- 예측 모델에 영향을 끼치는 요인으로 모델이 어떤 방식으로 개발되었는지가 있다.
- mechanistic model : 가정에 의존하는 모델 방정식을 생성 (eg. 감염병 SIR 모델)
- Empirically driven model : mechanistic model 보다 모호한 가정으로 만들어지는 모델 (eg. KNN model)
3. Connections between Types of Models
- 모델의 종류는 모델이 만들어진 수학적 방식이 아닌 사용하는 방법에 따라 모델 유형을 정의했으므로 동일한 모델이라도 사용하는 방법에 따라 세 가지 모델의 유형에 속할 수 있습니다.
- 1. 일반 선형 회귀분석을 이용하여 데이터의 추세를 설명할 수 있습니다 --> 설명 모델
- 2. 일반 선형 회귀분석을 이용하여 특정 변수의 유의성을 확인할 수 있습니다 --> 추론 모델
- 3. 일반 선형 회귀분석을 이용하여 새로운 데이터의 값을 예측할 수 있습니다 --> 예측 모델
4. Terminology (용어)
- 지도학습(supervised) 모델 : 종속변수을 통해 학습하는 모델
- Eg. Linear Regression, Neural Network
- 비지도학습(Unsupervised) 모델 : 종속변수가 없어 패턴, 클러스터, 기타 특성을 통해 학습하는 모델
- Eg. PCA, 클러스터링, 오토인코더(Auto-Encoder)
- 지도학습에는 크게 회귀(Regression)와 분류(Classification)가 존재하며, 회귀는 정량적인 숫자를 예측하는 것, 분류는 정성적인 값을 예측하는 것과 관련이 있습니다.
- 또한, 지도학습에서 결과를 나타내는 변수를 종속변수(레이블, 타겟, 반응변수)로 부르며, 결과를 예측하는데 도움이 되는 변수를 독립변수(예측변수, Feature, 설명변수)라고 합니다.
5. 모델 적합에 앞서..
- 우선, 데이터 클리닝(Data Cleaning)이 필요합니다. 해당 데이터로 프로젝트 목표를 달성할 수 있는지, 적용 가능한지, 적절한지 판단해야 합니다.
- 두번째로, 탐색적 데이터 분석 (EDA)가 필요합니다. 변수 내부의 변동이나 다양한 변수의 공변동이 어떻게 관련되어 있는지 분포, 범위, 속성 등을 밝히며 데이터에 대한 이해를 높입니다. (https://moogie.tistory.com/46)
- 마지막으로 데이터 분석을 시작하기 전, 모델에 대한 명백한 목적과 기대(성능,평가방법)이 필요합니다.
'Data Science > Modeling' 카테고리의 다른 글
[Tidy Modeling with R] 5. Data Spliting (데이터 분할) (0) | 2023.09.10 |
---|---|
[Tidy Modeling with R] 4. Ames Housing Data (0) | 2023.09.10 |
[Tidy Modeling with R] 3. R Modeling Fundamentals (0) | 2023.09.09 |
[Tidy Modeling with R] 2. Tidyverse (0) | 2023.09.07 |
[Tidy Modeling with R] 0. 서론 (1) | 2023.09.07 |