[Data Science With R] 11. Time Data with lubridate (202406)
·
Data Science/Manipulation
1. 티블에서 시간 표현데이트형 : 날짜형 타임형 : 시간형 데이트타임형 : 데이트타임형   2.  날짜 및 시간 데이터 생성날짜/시간 생성 현재 날짜 및 시간 생성 : today(), now() 함수 사용날짜 및 시간 변환 함수 : as_date, as_datetime 함수 사용 (수치값은 1970-01-01을 기준으로 지난 시간 제공)today() # [1] "2024-06-12"now() # [1] "2024-06-12 17:13:30 KST"as_datetime(today()) # [1] "2024-06-12 UTC"as_date(now()) # [1] "2024-06-12"as_datetime(24*60*60) # [1] "1970-01-02 UTC"as_date(365*5..
[Data Science With R] 10. 범주형 데이터 조작 with forcats (202406)
·
Data Science/Manipulation
범주형 자료는 가질 수 있는 값(범주)이 일반적으로 알려져 있고 고정되어 있는 데이터를 뜻합니다.성별은 대표적인 범주형 변수로 남자와 여자 두 가지 범주로 구성되어 있습니다.또한 성별 외에도 혈액형(A/B/AB/O형), 검사결과(음성/양성) 등을 범주형 자료라고 볼 수 있습니다.마지막으로 키, 연령과 같이 연속형인 변수는 Binning(구간화)를 통해 범주형 데이터로 변형할 수 있습니다.  R에서는 범주형 데이터를 나타내기 위해 주로 Factor(팩터)를 사용하는데요.base R에서는 factor(x, levels, labels, ordered) 함수를 이용해서 팩터형으로 변환할 수 있습니다.이때 levels는 범주가 가질 수 있는 값들을 입력받아 범주에 포함되지 않는 값은 NA로 변환하여 출력합니다.d..
[Data Science With R] 9. 정규표현식(Regular Expression) with Stringr (202406)
·
Data Science/Manipulation
1. 문자열 기초문자열 생성 : 따옴표(', ") 사이에 문자열을 포함하여 생성문자열의 원시(출력) 형태 확인 : writeLines, stringr::str_view원시 문자열(raw string) 생성 : r"(string)", r"{string}", r"[string]"와 같이 사용 2. 문자열 처리 함수 * 요약 : str_length(문자열길이), str_c(문자열결합), str_glue(파이썬 F-string 유사 함수), str_sub(각 문자열 서브셋팅), str_sort(order, rank, 문자열 정렬 및 순서), str_subset(서브셋), str_which(패턴에 맞는 문자열 위치), str_split(문자열 분리), str_replace_na(NA를 "NA"로 변환), str_..
[Data Science With R] 8. 관계형 데이터
·
Data Science/Manipulation
0. 키(Key) 정의 : 각 테이블 쌍을 연결하는데 사용되는 변수들의 집합으로 관측값을 고유하게 식별 기본키(primary key) : 자신의 테이블에서 관측값을 고유하게 식별하는 키 기본키는 중북되거나 NA값이 존재하면 안됨 변수 tailnum은 테이블 planes의 기본키 외래키(foreign key) : 다른 테이블의 기본키를 참조하는 키 외래키는 중복되거나 NA값이 존재해도 됨 변수 tailnum은 테이블 flights의 외래키 1. 뮤테이팅 조인 (Mutating Join) inner_join(x, y, by) 내부 조인 두 테이블의 키값이 같으면 매칭 left_join(x, y, by) 왼쪽 외부 조인 왼쪽 테이블의 키를 중심으로 매칭 right_join(x, y, by) 오른쪽 외부 조인 ..
[Data Science With R] 7. 데이터 변형 with tidyr (202405)
·
Data Science/Manipulation
1. 타이디한 데이터의 특성변수마다 대응되는 열이 있어야 한다.관측마다 대응되는 행이 있어야 한다.값마다 대응되는 하나의 셀이 있어야 한다 (= 두 개 이상의 값이 하나의 셀에 있으면 Tidy 하지 않음! )데이터 분석에 사용할 tidyverse 라이브러리의 대부분의 함수는 Tidy한 데이터에서 효율적으로 작동하기 때문에 이러한 특성은 중요합니다. (tidyverse 패키지를 사용하면보면 왜 타이디한 데이터가 편한지 자연스럽게 알게 될 겁니다.)  2. Pivot_longer( ) 열(Columns)로 흩어진 값들을 하나의 열로 나타낼 때 사용하는 함수로 기존 gather 보다 업그레이드 됨pivot_longer(data, cols, names_to="name", values_to="value") col..
[Data Science With R] 6. 파싱(Parsing) (202405)
·
Data Science/Manipulation
1. 파싱함수문자형 벡터를 입력받아 함수에 알맞은 특수화된 벡터를 반환파싱 실패시 경고메세지가 반환되며 problems( )로 실패목록과 사유를 확인할 수 있다.파라미터로 첫번째 인수로 문자형 벡터를 받으며, na 인수를 통해 결측치로 처리할 문자를 지정한다.parse_logical문자형 >> 논리형parse_character문자형 >> 문자형 (인코딩)parse_integer문자형 >> 정수형parse_factor문자형 >> 팩터형parse_double문자형 >> 수치형(엄격)parse_datetime문자형 >> 데이트타임형parse_number문자형 >> 수치형(유연)parse_date문자형 >> 날짜형parse_guess문자형 >> 추정된 유형parse_time문자형 >> 시간형  2. 숫자파싱 (..
[Data Science With R] 5. readr로 파일 읽기 (202503)
·
Data Science/Manipulation
1. 데이터 분석을 위한 디렉토리 설정하기데이터 분석을 하려면 분석에 필요한 데이터를 불러오는 것이 필수적입니다. 이때, 데이터를 불러오기 전에 먼저 현재 작업 환경(작업 디렉터리)을 확인하거나 변경하는 작업이 필요합니다.📌 현재 작업환경(디렉터리) 확인하기현재 어떤 폴더에서 작업하고 있는지 알고 싶다면 getwd() 함수를 사용하면 됩니다.getwd() # 현재 작업 디렉터리 경로 출력 📌 작업환경(디렉터리) 변경하기작업하는 디렉터리를 변경하려면 setwd() 함수를 사용하면 됩니다. 이때, 절대경로 또는 상대경로 모두 사용할 수 있습니다.절대경로: 전체 경로를 명시 (예시: "C:/Users/user/Desktop/project")상대경로:"~" : 사용자의 홈 디렉터리"." : 현재 디렉터리"..
[Data Science With R] 4. 티블(Tibble) (202406)
·
Data Science/Manipulation
1. 정의티블(tibble)은 R의 데이터프레임과 유사하지만, 더 편리하고 직관적인 형태로 데이터를 다룰 수 있도록 설계된 객체(클래스)입니다.tidyverse 생태계에서 널리 사용되며, 데이터 분석의 효율성을 높여줍니다.  2. 주요 함수 정리as_tibble( ) : Data Frame or Matrix 객체를 티블로 변환tibble( ) : 개별 벡터로부터 새로운 티블 생성tribble( ) : 전치된 티블의 줄임말로 인스턴스 입력에서 새로운 태블 생성 (변수명은 ~를 사용하여 표시)enframe( ) : 벡터를 티블로 변환deframe( ) : 열이 하나 또는 두개인 티블이나 데이터프레임을 벡터로 변환 예시) tibble형과 메트릭스 객체의 차이library(tidyverse)print(iris)..