1. 문자열 기초
- 문자열 생성 : 따옴표(', ") 사이에 문자열을 포함하여 생성
- 문자열의 원시(출력) 형태 확인 : writeLines, stringr::str_view
- 원시 문자열(raw string) 생성 : r"(string)", r"{string}", r"[string]"와 같이 사용
2. 문자열 처리 함수
012345678910
* 요약 : str_length(문자열길이), str_c(문자열결합), str_glue(파이썬 F-string 유사 함수), str_sub(각 문자열 서브셋팅), str_sort(order, rank, 문자열 정렬 및 순서), str_subset(서브셋), str_which(패턴에 맞는 문자열 위치), str_split(문자열 분리), str_replace_na(NA를 "NA"로 변환), str_locate(문자열 패턴 위치), str_detect(패턴감지), str_replace(문자열 변경), str_extract(문자열 추출)
* 참고 : 문장을 각 문자열로 분리할때 str_split(sen, " ") 보다는 str_split(sen, boundary("word"))가 효과적입니다.
3. 정규표현식
0123456
4. regex( ) 함수의 파라미터
- ignore_case = T : 문자의 대문자나 소문자 형태 모두를 매칭
- multiline = T : 앵커(^, $)가 전체 문자열의 시작과 끝이 아닌 "\n"으로 구분된 각 라인에 적용
- comment = T : 주석과 공백 사용 가능 (단 공백 문자를 매칭하기 위해 "\\"로 매칭)
- dotall = T : 점(".")이 새줄(\n)을 포함한 모든 문자와 매칭
'Data Science > Manipulation' 카테고리의 다른 글
[Data Science With R] 11. Time Data with lubridate (202406) (0) | 2023.04.08 |
---|---|
[Data Science With R] 10. 범주형 데이터 조작 with forcats (202406) (0) | 2023.04.08 |
[Data Science With R] 8. 관계형 데이터 (0) | 2023.04.01 |
[Data Science With R] 7. 데이터 변형 with tidyr (202405) (1) | 2023.04.01 |
[Data Science With R] 6. 파싱(Parsing) (202405) (0) | 2023.03.31 |