[Data Science With R] 9. 정규표현식(Regular Expression) with Stringr (202406)

2023. 4. 4. 12:46·Data Science/Manipulation

1. 문자열 기초

  • 문자열 생성 : 따옴표(', ") 사이에 문자열을 포함하여 생성
  • 문자열의 원시(출력) 형태 확인 : writeLines, stringr::str_view
  • 원시 문자열(raw string) 생성 : r"(string)", r"{string}", r"[string]"와 같이 사용

 

2. 문자열 처리 함수

012345678910

 

* 요약 : str_length(문자열길이), str_c(문자열결합), str_glue(파이썬 F-string 유사 함수), str_sub(각 문자열 서브셋팅), str_sort(order, rank, 문자열 정렬 및 순서), str_subset(서브셋), str_which(패턴에 맞는 문자열 위치), str_split(문자열 분리), str_replace_na(NA를 "NA"로 변환), str_locate(문자열 패턴 위치), str_detect(패턴감지), str_replace(문자열 변경), str_extract(문자열 추출)

* 참고 : 문장을 각 문자열로 분리할때 str_split(sen, " ") 보다는 str_split(sen, boundary("word"))가 효과적입니다.

 

 

 

3. 정규표현식

0123456

 

 

4.  regex( ) 함수의 파라미터

  • ignore_case = T : 문자의 대문자나 소문자 형태 모두를 매칭
  • multiline = T : 앵커(^, $)가 전체 문자열의 시작과 끝이 아닌 "\n"으로 구분된 각 라인에 적용
  • comment = T : 주석과 공백 사용 가능 (단 공백 문자를 매칭하기 위해 "\\"로 매칭)
  • dotall = T : 점(".")이 새줄(\n)을 포함한 모든 문자와 매칭

 

 

저작자표시 비영리 변경금지 (새창열림)

'Data Science > Manipulation' 카테고리의 다른 글

[Data Science With R] 11. Time Data with lubridate (202406)  (0) 2023.04.08
[Data Science With R] 10. 범주형 데이터 조작 with forcats (202406)  (0) 2023.04.08
[Data Science With R] 8. 관계형 데이터  (0) 2023.04.01
[Data Science With R] 7. 데이터 변형 with tidyr (202405)  (1) 2023.04.01
[Data Science With R] 6. 파싱(Parsing) (202405)  (0) 2023.03.31
'Data Science/Manipulation' 카테고리의 다른 글
  • [Data Science With R] 11. Time Data with lubridate (202406)
  • [Data Science With R] 10. 범주형 데이터 조작 with forcats (202406)
  • [Data Science With R] 8. 관계형 데이터
  • [Data Science With R] 7. 데이터 변형 with tidyr (202405)
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[Data Science With R] 9. 정규표현식(Regular Expression) with Stringr (202406)
상단으로

티스토리툴바