[Tidy Modeling with R] 1. Software for modeling

모델은 시스템을 설명하거나 데이터의 관계를 포착할 수 있는 수학적 도구로 다양한 목적으로 사용될 수 있습니다.

미래에 발생할 사건을 예측(Prediction)하거나, 여러 그룹에서 차이가 있는지 검정하고 싶을 때 혹은 특이한 패턴을 발견하기 위한 목적을 포함해서 말이죠.

모델의 목적은 복잡한 관계를 간단하게 표현하는데 있으며 데이터에 존재하는 관계를 수식을 통해 유용하게 표현할 수 있습니다.

이 장에서는 모델링 소프트웨어 구축 또는 선택 시 고려 사항, 모델의 목적, 광범위한 데이터 분석 프로세스에서 모델링이 수행되는 위치에 대해 간략하게 설명합니다.

1 Software for modeling | Tidy Modeling with R

The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phases

www.tmwr.org

1. Fundamentals of modeling software (모델링 소프트웨어의 기본 사항)

소프트웨어는 UI를 포함해 사용자가 작동하기 쉬워야 합니다.
품질이 좋은 모델을 만들기 위해서 소프트웨어는 적절한 사용이 가능하도록 제공되어야 합니다.
모델링 소프트웨어는 과학적이고 통계적인 근거를 제공해야 합니다. (다만 복잡한 모델일수록 기본 가정이나 논리적 오류를 범할 가능성이 높아짐)
즉, 소프트웨어는 고성능 모델을 생성할 만큼 강력해야 하지만 적절하게 사용할 수 있어야 한다!

2. Types of Models (모델의 종류)

Descriptive Model (설명 모델) : 데이터의 특성이나 추세를 설명하는 목적
- loess 모델은 데이터의 일부 추세를 설명하는데 사용될 수 있음
Inferential Model (추론 모델) : 연구 질문에 대한 결정을 내리거나 특정 가설을 탐색하기 위한 목적으로 사용되며 가정으로 시작하여 구간 추정이나 가설 채택/기각과 같은 통계적 결론을 내릴 수 있음
- 추론 모델을 만들기 위해 데이터나 데이터 생성 과정(DGP)에 확률론적 가정이 필요함
Predictive Model (예측 모델) : 기존의 데이터를 사용해 새로운 데이터가 주어졌을 때, 가장 높은 정확도를 가지는 예측값을 출력하려는 목적
- 데이터와 관련된 가설을 평가하는 것보다는 데이터 값 자체에 관심이 있음
- 예측 모델에 영향을 끼치는 요인으로 모델이 어떤 방식으로 개발되었는지가 있다.
  - mechanistic model : 가정에 의존하는 모델 방정식을 생성 (eg. 감염병 SIR 모델)
  - Empirically driven model : mechanistic model 보다 모호한 가정으로 만들어지는 모델 (eg. KNN model)

3. Connections between Types of Models

모델의 종류는 모델이 만들어진 수학적 방식이 아닌 사용하는 방법에 따라 모델 유형을 정의했으므로 동일한 모델이라도 사용하는 방법에 따라 세 가지 모델의 유형에 속할 수 있습니다.
- 1. 일반 선형 회귀분석을 이용하여 데이터의 추세를 설명할 수 있습니다 --> 설명 모델
- 2. 일반 선형 회귀분석을 이용하여 특정 변수의 유의성을 확인할 수 있습니다 --> 추론 모델
- 3. 일반 선형 회귀분석을 이용하여 새로운 데이터의 값을 예측할 수 있습니다 --> 예측 모델

4. Terminology (용어)

지도학습(supervised) 모델 : 종속변수을 통해 학습하는 모델
- Eg. Linear Regression, Neural Network
비지도학습(Unsupervised) 모델 : 종속변수가 없어 패턴, 클러스터, 기타 특성을 통해 학습하는 모델
- Eg. PCA, 클러스터링, 오토인코더(Auto-Encoder)
지도학습에는 크게 회귀(Regression)와 분류(Classification)가 존재하며, 회귀는 정량적인 숫자를 예측하는 것, 분류는 정성적인 값을 예측하는 것과 관련이 있습니다.
또한, 지도학습에서 결과를 나타내는 변수를 종속변수(레이블, 타겟, 반응변수)로 부르며, 결과를 예측하는데 도움이 되는 변수를 독립변수(예측변수, Feature, 설명변수)라고 합니다.

5. 모델 적합에 앞서..

우선, 데이터 클리닝(Data Cleaning)이 필요합니다. 해당 데이터로 프로젝트 목표를 달성할 수 있는지, 적용 가능한지, 적절한지 판단해야 합니다.
두번째로, 탐색적 데이터 분석 (EDA)가 필요합니다. 변수 내부의 변동이나 다양한 변수의 공변동이 어떻게 관련되어 있는지 분포, 범위, 속성 등을 밝히며 데이터에 대한 이해를 높입니다. (https://moogie.tistory.com/46)
마지막으로 데이터 분석을 시작하기 전, 모델에 대한 명백한 목적과 기대(성능,평가방법)이 필요합니다.

저작자표시 비영리 변경금지 (새창열림)

'Data Science > Modeling' 카테고리의 다른 글

[Tidy Modeling with R] 5. Data Spliting (데이터 분할) (0)	2023.09.10
[Tidy Modeling with R] 4. Ames Housing Data (0)	2023.09.10
[Tidy Modeling with R] 3. R Modeling Fundamentals (0)	2023.09.09
[Tidy Modeling with R] 2. Tidyverse (0)	2023.09.07
[Tidy Modeling with R] 0. 서론 (1)	2023.09.07

1. Fundamentals of modeling software (모델링 소프트웨어의 기본 사항)

2. Types of Models (모델의 종류)

3. Connections between Types of Models

4. Terminology (용어)

5. 모델 적합에 앞서..

'Data Science > Modeling' 카테고리의 다른 글

티스토리툴바