[Data Science With R] 3. 탐색적 데이터 분석 (Exploratory Data Analysis) (202405)
·
Data Science/Manipulation
0. Overview  1. 정의데이터를 체계적으로 탐색하기 위해 시각화 및 탐색을 활용하는 과정데이터를 이해하고 그 속에서 인사이트를 발굴하기 위해 중요한 과정   2. 방법데이터에 대한 질문을 만든다데이터를 시각화, 변형 및 모델링하여 질문에 대한 답을 찾는다질문을 개선하거나 새로운 질문을 만든다   3. 질문단변량 변수 내에서 어떤 유형의 변동(Variation)이 발생하는지이변량 & 다변량 변수 간에 어떤 유형의 공변동(Covariation)이 발생하는지   4. 시각화범주형 변수의 분포 개수 : count(x), table(x)시각화 : geom_bar, geom_col연속형 변수의 분포범주화 : cut, cut_width, cut_interval, cut_number, case_when시각화 ..
[Data Science With R] 2. 데이터 변형 (202405)
·
Data Science/Manipulation
1-1. filter( )로 조건에 맞는 행 선택설명 : 조건을 만족하는 모든 행을 남기는 데이터 프레임 서브셋팅(Subsetting) 함수조건의 결과가 TRUE인 모든 행을 남기며, FALSE나 NA를 반환 시에는 해당 행은 출력하지 않는다.dot-dot-dot (...)에 (논리)조건이 들어가며 여러 개의 조건이 들어가면 & 연산으로 묶여서 계산[advanced] Lazy Evaluation을 지원하므로 결과를 필요로 하기 전까지 필터링 조건을 평가하지 않음유용한 필터링 함수 논리연산자 : &(and), |(or), !(not), xorbetween(x, a, b) : [a, b]에 포함되는 x는 TRUE 반환x %in% y : x가 y에 포함되는지 반환하는 논리함수near(x, y, tol) : 부..
[Data Science with R] 1. 데이터 시각화 (202405)
·
Data Science/Manipulation
1. 그래프 작성 문법 ggplot(data)를 기반으로 표현하고자 하는 레이어를 추가할 수 있으며 ggplot( )함수는 그림에서의 도화지와 같은 역할을 합니다.지옴(geom) 함수를 통해 ggplot으로 생성된 틀에 레이어를 추가 할 수 있으며 종류는 https://moogie.tistory.com/43를 참고해주세요.ggplot(data, mapping=aes(...)) + geom_function(mapping=aes(...))   2. 심미성 (aesthetic) 그래픽 속성을 변수의 값에 따라 달라지도록 표현하기 위해 aes() 내부에서 시각작 요소를 변수와 연결(매핑)시켜야 합니다.aes외부에서 시각적 요소의 값을 지정하여 속성을 수동으로 설정할 수 있습니다. (= 변수의 값에 따라 속성이 ..
[R] ggplot2 Visualization
·
Data Science/Visualization
Data Science의 첫 글을 시각화로 시작하게 되었습니다. 20년도에 스터디하면서 제작한 자료로 ggplot2의 geom_function에 대해 다루고 있습니다.