[Data Science With R] 5. readr로 파일 읽기 (202503)
·
Data Science/Manipulation
1. 데이터 분석을 위한 디렉토리 설정하기데이터 분석을 하려면 분석에 필요한 데이터를 불러오는 것이 필수적입니다. 이때, 데이터를 불러오기 전에 먼저 현재 작업 환경(작업 디렉터리)을 확인하거나 변경하는 작업이 필요합니다.📌 현재 작업환경(디렉터리) 확인하기현재 어떤 폴더에서 작업하고 있는지 알고 싶다면 getwd() 함수를 사용하면 됩니다.getwd() # 현재 작업 디렉터리 경로 출력 📌 작업환경(디렉터리) 변경하기작업하는 디렉터리를 변경하려면 setwd() 함수를 사용하면 됩니다. 이때, 절대경로 또는 상대경로 모두 사용할 수 있습니다.절대경로: 전체 경로를 명시 (예시: "C:/Users/user/Desktop/project")상대경로:"~" : 사용자의 홈 디렉터리"." : 현재 디렉터리"..
[Data Science With R] 4. 티블(Tibble) (202406)
·
Data Science/Manipulation
1. 정의티블(tibble)은 R의 데이터프레임과 유사하지만, 더 편리하고 직관적인 형태로 데이터를 다룰 수 있도록 설계된 객체(클래스)입니다.tidyverse 생태계에서 널리 사용되며, 데이터 분석의 효율성을 높여줍니다.  2. 주요 함수 정리as_tibble( ) : Data Frame or Matrix 객체를 티블로 변환tibble( ) : 개별 벡터로부터 새로운 티블 생성tribble( ) : 전치된 티블의 줄임말로 인스턴스 입력에서 새로운 태블 생성 (변수명은 ~를 사용하여 표시)enframe( ) : 벡터를 티블로 변환deframe( ) : 열이 하나 또는 두개인 티블이나 데이터프레임을 벡터로 변환 예시) tibble형과 메트릭스 객체의 차이library(tidyverse)print(iris)..
[Data Science With R] 3. 탐색적 데이터 분석 (Exploratory Data Analysis) (202405)
·
Data Science/Manipulation
0. Overview  1. 정의데이터를 체계적으로 탐색하기 위해 시각화 및 탐색을 활용하는 과정데이터를 이해하고 그 속에서 인사이트를 발굴하기 위해 중요한 과정   2. 방법데이터에 대한 질문을 만든다데이터를 시각화, 변형 및 모델링하여 질문에 대한 답을 찾는다질문을 개선하거나 새로운 질문을 만든다   3. 질문단변량 변수 내에서 어떤 유형의 변동(Variation)이 발생하는지이변량 & 다변량 변수 간에 어떤 유형의 공변동(Covariation)이 발생하는지   4. 시각화범주형 변수의 분포 개수 : count(x), table(x)시각화 : geom_bar, geom_col연속형 변수의 분포범주화 : cut, cut_width, cut_interval, cut_number, case_when시각화 ..
[Data Science With R] 2. 데이터 변형 (202405)
·
Data Science/Manipulation
1-1. filter( )로 조건에 맞는 행 선택설명 : 조건을 만족하는 모든 행을 남기는 데이터 프레임 서브셋팅(Subsetting) 함수조건의 결과가 TRUE인 모든 행을 남기며, FALSE나 NA를 반환 시에는 해당 행은 출력하지 않는다.dot-dot-dot (...)에 (논리)조건이 들어가며 여러 개의 조건이 들어가면 & 연산으로 묶여서 계산[advanced] Lazy Evaluation을 지원하므로 결과를 필요로 하기 전까지 필터링 조건을 평가하지 않음유용한 필터링 함수 논리연산자 : &(and), |(or), !(not), xorbetween(x, a, b) : [a, b]에 포함되는 x는 TRUE 반환x %in% y : x가 y에 포함되는지 반환하는 논리함수near(x, y, tol) : 부..
[Data Science with R] 1. 데이터 시각화 (202405)
·
Data Science/Manipulation
1. 그래프 작성 문법 ggplot(data)를 기반으로 표현하고자 하는 레이어를 추가할 수 있으며 ggplot( )함수는 그림에서의 도화지와 같은 역할을 합니다.지옴(geom) 함수를 통해 ggplot으로 생성된 틀에 레이어를 추가 할 수 있으며 종류는 https://moogie.tistory.com/43를 참고해주세요.ggplot(data, mapping=aes(...)) + geom_function(mapping=aes(...))   2. 심미성 (aesthetic) 그래픽 속성을 변수의 값에 따라 달라지도록 표현하기 위해 aes() 내부에서 시각작 요소를 변수와 연결(매핑)시켜야 합니다.aes외부에서 시각적 요소의 값을 지정하여 속성을 수동으로 설정할 수 있습니다. (= 변수의 값에 따라 속성이 ..