[Tidy Modeling with R] 1. Software for modeling

2023. 9. 7. 19:22·Data Science/Modeling

 

모델은 시스템을 설명하거나 데이터의 관계를 포착할 수 있는 수학적 도구로 다양한 목적으로 사용될 수 있습니다.

미래에 발생할 사건을 예측(Prediction)하거나, 여러 그룹에서 차이가 있는지 검정하고 싶을 때 혹은 특이한 패턴을 발견하기 위한 목적을 포함해서 말이죠.

모델의 목적은 복잡한 관계를 간단하게 표현하는데 있으며 데이터에 존재하는 관계를 수식을 통해 유용하게 표현할 수 있습니다.

이 장에서는 모델링 소프트웨어 구축 또는 선택 시 고려 사항, 모델의 목적, 광범위한 데이터 분석 프로세스에서 모델링이 수행되는 위치에 대해 간략하게 설명합니다.

 

1 Software for modeling | Tidy Modeling with R

The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phases

www.tmwr.org

 

 

1. Fundamentals of modeling software (모델링 소프트웨어의 기본 사항)

  • 소프트웨어는 UI를 포함해 사용자가 작동하기 쉬워야 합니다.
  • 품질이 좋은 모델을 만들기 위해서 소프트웨어는 적절한 사용이 가능하도록 제공되어야 합니다.
  • 모델링 소프트웨어는 과학적이고 통계적인 근거를 제공해야 합니다. (다만 복잡한 모델일수록 기본 가정이나 논리적 오류를 범할 가능성이 높아짐)
  • 즉, 소프트웨어는 고성능 모델을 생성할 만큼 강력해야 하지만 적절하게 사용할 수 있어야 한다! 

 

 

2. Types of Models (모델의 종류)

  • Descriptive Model (설명 모델) : 데이터의 특성이나 추세를 설명하는 목적
    • loess 모델은 데이터의 일부 추세를 설명하는데 사용될 수 있음
  • Inferential Model (추론 모델) : 연구 질문에 대한 결정을 내리거나 특정 가설을 탐색하기 위한 목적으로 사용되며 가정으로 시작하여 구간 추정이나 가설 채택/기각과 같은 통계적 결론을 내릴 수 있음
    • 추론 모델을 만들기 위해 데이터나 데이터 생성 과정(DGP)에 확률론적 가정이 필요함
  • Predictive Model (예측 모델) : 기존의 데이터를 사용해 새로운 데이터가 주어졌을 때, 가장 높은 정확도를 가지는 예측값을 출력하려는 목적
    • 데이터와 관련된 가설을 평가하는 것보다는 데이터 값 자체에 관심이 있음
    • 예측 모델에 영향을 끼치는 요인으로 모델이 어떤 방식으로 개발되었는지가 있다.
      • mechanistic model : 가정에 의존하는 모델 방정식을 생성 (eg. 감염병 SIR 모델)
      • Empirically driven model : mechanistic model 보다 모호한 가정으로 만들어지는 모델 (eg. KNN model)

 

 

3. Connections between Types of Models 

  • 모델의 종류는 모델이 만들어진 수학적 방식이 아닌 사용하는 방법에 따라 모델 유형을 정의했으므로 동일한 모델이라도 사용하는 방법에 따라 세 가지 모델의 유형에 속할 수 있습니다.
    • 1. 일반 선형 회귀분석을 이용하여 데이터의 추세를 설명할 수 있습니다 --> 설명 모델
    • 2. 일반 선형 회귀분석을 이용하여 특정 변수의 유의성을 확인할 수 있습니다 --> 추론 모델 
    • 3. 일반 선형 회귀분석을 이용하여 새로운 데이터의 값을 예측할 수 있습니다 --> 예측 모델

 

 

4. Terminology (용어)

  • 지도학습(supervised) 모델 : 종속변수을 통해 학습하는 모델
    • Eg. Linear Regression, Neural Network
  • 비지도학습(Unsupervised) 모델 : 종속변수가 없어 패턴, 클러스터, 기타 특성을 통해 학습하는 모델
    • Eg. PCA, 클러스터링, 오토인코더(Auto-Encoder)
  • 지도학습에는 크게 회귀(Regression)와 분류(Classification)가 존재하며, 회귀는 정량적인 숫자를 예측하는 것, 분류는 정성적인 값을 예측하는 것과 관련이 있습니다.
  • 또한, 지도학습에서 결과를 나타내는 변수를 종속변수(레이블, 타겟, 반응변수)로 부르며, 결과를 예측하는데 도움이 되는 변수를 독립변수(예측변수, Feature, 설명변수)라고 합니다. 

 

 

5. 모델 적합에 앞서..

  • 우선, 데이터 클리닝(Data Cleaning)이 필요합니다. 해당 데이터로 프로젝트 목표를 달성할 수 있는지, 적용 가능한지, 적절한지 판단해야 합니다.
  • 두번째로, 탐색적 데이터 분석 (EDA)가 필요합니다. 변수 내부의 변동이나 다양한 변수의 공변동이 어떻게 관련되어 있는지 분포, 범위, 속성 등을 밝히며 데이터에 대한 이해를 높입니다. (https://moogie.tistory.com/46)
  • 마지막으로 데이터 분석을 시작하기 전, 모델에 대한 명백한 목적과 기대(성능,평가방법)이 필요합니다.

 

저작자표시 비영리 변경금지 (새창열림)

'Data Science > Modeling' 카테고리의 다른 글

[Tidy Modeling with R] 5. Data Spliting (데이터 분할)  (0) 2023.09.10
[Tidy Modeling with R] 4. Ames Housing Data  (0) 2023.09.10
[Tidy Modeling with R] 3. R Modeling Fundamentals  (0) 2023.09.09
[Tidy Modeling with R] 2. Tidyverse  (0) 2023.09.07
[Tidy Modeling with R] 0. 서론  (1) 2023.09.07
'Data Science/Modeling' 카테고리의 다른 글
  • [Tidy Modeling with R] 4. Ames Housing Data
  • [Tidy Modeling with R] 3. R Modeling Fundamentals
  • [Tidy Modeling with R] 2. Tidyverse
  • [Tidy Modeling with R] 0. 서론
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[Tidy Modeling with R] 1. Software for modeling
상단으로

티스토리툴바