일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Seaborn
- 이상치
- sklearn
- 누락값
- value_counts
- SimpleImputer
- join
- matplotlib
- 선형보간
- 보간법
- Boxplot
- stopwords
- IterativeImputer
- 파이썬
- interpolate
- 불용어
- KoNLP
- MSE
- 결측치
- 데이터프레임
- subplots
- BDA
- countplot
- 대치법
- 전처리
- DataFrame
- 결측치대체
- Python
- Outlier
- koNLPy
- Today
- Total
목록KoNLP (3)
ACAIT

영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석. 1. 데이터 샘플 추출 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬. 2. 데이터 전처리 2-1. 특수문자 및 초성 제거 작업 2-2. 긍부정 리뷰 분리 긍부정별로 단어 전체 리스트 생성. 2-3. konlpy.tag - Okt 전처리 Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환. 2-4. 상위 20개 단어 분석 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함. 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행. 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우..

텍스트 전처리에 대한 내용을 정리해 보겠습니다. 텍스트 전처리 특수문자, 공백 제거 등의 정제 작업 이후 한글과 영어에 따라 전처리 작업 진행. 0. 전처리 종류 토큰화(Tokenization): 주어진 텍스트 잔위를 토큰을 나누는 작업. ex) 나는 밥을 먹었다 -> 나는 / 밥을 / 먹었다 문장 토큰화 단어 토큰화: 일반적인 토큰화 작업 단어보다 더 작은 형태로 토큰화 가능: 나 / 는 정규화: go, goes 등 주어에 따라 달라지는 의미가 비슷한 단어들을 하나로 정규화. 어간 추출, 표제어 추출 품사 태깅: 명사나 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용. 1. 문장 토큰화 1-1. sent_tokenize(data) 온점 기준으로 한 문장씩 토큰화 진행. 2. 단어 토큰화 ..