[ISR] 3. 선형회귀(Linear Regression) Part 2
·
AI/Machine Learning
저번 포스팅에서는 회귀계수에 최소제곱법을 이용하여 $\beta_{1}^{LSM}$과 $\beta_{2}^{LSM}$의 추정량을 보이고 실습했습니다. 이번 포스팅에서는 회귀계수추정량의 표준오차와 검정 그리고 모델의 평가에 대해 알아보겠습니다. 1. 회귀계수추정량의 평균과 표준오차 회귀계수추정량은 모회귀의 절편과 기울기를 나타내는 확률변수이기 때문에 평균과 표준오차(통계량의 표준편차)를 구할 수 있는데요. 오차의 가정(오차의 등분산성, 오차의 무상관성, 정규분포)하에서 아래가 성립합니다. $$\widehat{\beta_0} \sim N(\beta_0, \sigma^2[\frac{1}{n} + \frac{\overline{X}^2}{\sum_{i=1}^{n}{(X_i - \overline{X})^2}}])$$..
[ISL] 3. 선형회귀(Linear Regression) Part 1
·
AI/Machine Learning
1. Overview 단순선형회귀(Simple Linear Regression)는 하나의 양적 설명변수 X에 기초하여 양적 반응변수 Y를 나타내는 기법으로 선형적 상관관계가 존재할때 적용할 수 있습니다. 모델(Model) : $ Y = \beta_{0} + \beta_{1} + \varepsilon $ (단, $\varepsilon \sim N(0, \sigma^2)$ 예측(Prediction) : $ \widehat{Y} = \widehat{\beta_{0}} + \widehat{\beta_{1}}X $ 파라미터(Parameter) : $\beta_{0}$은 회귀모형의 절편(Intercept), $\beta_{1}$은 회귀모형의 기울기(Slope)를 의미 파라미터 계수 추정 : 최소제곱법(Least S..
[ISR] 2. Bayes Classifier & KNN
·
AI/Machine Learning
과거 을 공부하면서 정리한 내용입니다. 회귀에서는 모델 정확도 지표로 MSE를 주로 사용하지만 분류에서는 오차율(error rate)를 자주 사용합니다. 보통 분류 모델을 개발할 때, 주어진 데이터 셋을 보면 $(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$ 으로 구성되어 있으며, $y_i$는 사전에 정의된 클래스에 속해 있는 질적(범주형) 변수입니다. 이때 오차율은 다음과 같이 정의하며 $ I(y_{i} \neq \widehat{y_{i}}) $는 지시변수로 $ y_{i} $ 와 $\widehat{y_i}$가 같이 않다면 1을, 같다면 0을 출력하는 변수입니다. $$ \textbf{ER} = \frac{1}{n}\sum_{i=1}^{n} \textbf{I} (y_i \ne..
[ISR] 2. 통계학습(Statistical Learning)
·
AI/Machine Learning
과거 을 공부하면서 정리한 내용입니다. 1. Advertising 자료 200개의 다른 시장에서 제품의 판매 수치와 각 시장에서의 광고예산(TV, 라디오, 신문)을 나타낸 데이터 광고예산 (입력변수, X)와 판매수치 (출력변수, Y) 의 관계는? 직관적으로 TV, Radio, Newspaper는 출력변수인 Sales에 영향을 주는 것으로 보임 2. 입력변수와 출력변수 입력변수 : 설명변수, predictor, 독립변수라고 불리며 $X=(X_1, X_2, …, X_p)$로 표시 출력변수 : 반응변수, response, 종속변수로 불리면 Y로 표시 관계 : $y = f(x) + \varepsilon$ ( f : 고정함수, 오차항 : X와 독립이며 평균이 0인 랜덤 오차항 ) 통계학습 : f를 추정하는 일련의..
[Tensorflow] 3. 분류 (Classification)
·
AI/Deep Learning
저번 포스팅에서는 텐서플로를 이용한 회귀분석과 실습을 해보았는데요! 이번에는 종속변수가 수치형이였던 회귀와는 조금은 다른 분류에 대해서 포스팅하려고 합니다. 실생활에서는 서류를 정리하거나 합격자/불합격자의 명단을 나눌때 분류라는 단어를 사용하죠. 이와 유사하게 분류는 무엇을 특정한 기준에 따라 나누는 것을 의미하는데요. 데이터 사이언스에서는 특정한 기준이 몇개인지에 따라 분류를 이항분류와 다항분류로 구분합니다. 이항분류는 기준이 2개로 어떤 사진이 주어졌을 때 이 사진이 고양이사진인지 강아지사진인지 구분하는 것을 의미합니다. 사진을 여러개 주여져도 무조건 고양이나 강아지 사진으로 분류하지 범고래 사진이라고 분류하지 않아요! 반면에 다항분류는 기준이 여러개로 어떤 사람이 쓴 숫자가 0~9 중 어떤 숫자인지..
[Tensorflow] 2-1 Regression with Boston housing datasets
·
AI/Deep Learning
이번 포스팅에서는 보스턴 하우징이라는 유명한 데이터셋에 저번 포스팅에서 공부한 회귀분석을 통해 분석해보려고 합니다 0. Set Environment and Prepare Data (환경설정 및 데이터준비) 보스턴 주택 가격 데이터셋은 1978년에 발표된 데이터로 주택가격을 포함한 여러가지 변수를 담고 있는 데이터셋 입니다. 참고로 데이터는 14개의 변수를 포함하고 있으며 504개의 샘플을 포함하고 있으며 각 변수와 설명은 아래 표를 참고하면 됩니다. CRIM 자치시(town) 별 1인당 범죄율(%) DIS 5개의 보스턴 직업센터까지의 접근성 지수 ZN 25,000 평방피트를 초과하는 거주지역의 비율 RAD 방사형 도로까지의 접근성 지수 INDUS 비소매 상업 지역이 점유하고 있는 토지의 비율 TAX 10..
[Tensorflow] 2. 회귀(Regression)
·
AI/Deep Learning
저번에는 인공신경망과 간단한 코드를 사용해 논리연산자를 구현해보았는데요. 이번에는 본격적으로 회귀에 대해서 포스팅 해보려고 합니다. "과거로 회귀하다"와 같은 말처럼 회귀(Regression)은 제자리로 돌아오거나 돌아간다는 의미를 가지고 있는데요. 도대체 무엇으로 어떻게 돌아간다는 의미일까요?? 🧐 이는 프랜시스 골턴이라는 유전학자가 아버지의 키가 크면 자식도 평균보다 크지만 아버지 만큼 크지 못하다는 사실을 발견하고 "평균으로 회귀(Regression)"라는 개념을 설명하면서 알려지게 되었습니다. 현재는 하나 이상의 독립변수($X$)와 독립변수에 영향을 받는 종속변수($Y$)의 관계를 분석하는 것을 회귀분석이라고 합니다. 앞선 예시에서는 아버지의 키로 자식의 키를 분석했기에 아버지의 키를 독립변수($..
[Tensorflow] 1. 논리연산을 위한 신경망 네트워크 생성
·
AI/Deep Learning
흔히 C나 Python와 같은 프로그래밍을 배우다 보면 자연스럽게 논리 연산을 접하게 되는데요. 생각해보면 저 역시 대학교 첫 컴퓨터 프로그래밍 시간에 배웠더라고요! 각설하고 논리연산은 비트연산이라고도 불리며 컴퓨터는 0과 1로 정보를 처리하므로 논리 연산은 굉장히 중요한 연산이에요. 전자공학에서도 논리 연산을 물리적 장치로 구현한 전자 회로를 의미 논리 회로(logic gate)에서도 사용되며 데이터베이스의 인덱스 중에 비트맵 인덱스(Bitmap Index), 데이터사이언스나 통계에서도 광범위하게 사용되고 있어요. 논리 연산을 위한 연산자는 여러개가 있는데 그 중 4개 정도의 연산자를 소개하고 이를 구성하는 네트워크를 구성하려고 합니다. 1. 논리합(OR, ∨) 연산자 (Disjunction) 논리합은..