| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 데이터프레임
- Python
- Outlier
- Boxplot
- 전처리
- stopwords
- 보간법
- 선형보간
- IterativeImputer
- 파이썬
- 대치법
- MSE
- countplot
- 결측치
- sklearn
- matplotlib
- 이상치
- BDA
- 누락값
- KoNLP
- interpolate
- 결측치대체
- koNLPy
- join
- Seaborn
- DataFrame
- SimpleImputer
- 불용어
- subplots
- value_counts
- Today
- Total
목록replace (2)
ACAIT
영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석. 1. 데이터 샘플 추출 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬. 2. 데이터 전처리 2-1. 특수문자 및 초성 제거 작업 2-2. 긍부정 리뷰 분리 긍부정별로 단어 전체 리스트 생성. 2-3. konlpy.tag - Okt 전처리 Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환. 2-4. 상위 20개 단어 분석 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함. 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행. 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우..
1. re, regex: 정규표현식 match(), fullmatch(), findall(), search() 등의 함수가 있는 모듈. 문자열 처리 시 다앙한 사례에서 요구하는 조건의 패턴, 처리 방식을 만들어 처리하는 방법. split, strip, 등의 문자열 문법이 정규표현식과 사용하면 다양한 응용 가능. 이메일 주소 찾기, 아이디/비번 패턴 찾기 등 다양한 패턴 만들 수 있음. 숫자 [0-9] 소문자 [a-z] 대문자 [A-Z] 한글 [가-힣] 자음모음 [ㄱ-ㅎ][ㅏ-ㅣ] ^: Not. 제외하고 전부. '+', '*': 0개 이상 또는 1개 이상의 패턴을 모두 찾는 것. # 약어 \d 모든 숫자 \D 모든 숫자 제외 \w 영문, 대소문자, 숫자, 밑줄 문자 포함 \W 상기 제외 1-1. match..