일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- SimpleImputer
- 전처리
- matplotlib
- value_counts
- Boxplot
- join
- IterativeImputer
- countplot
- Outlier
- 이상치
- 결측치대체
- BDA
- KoNLP
- 대치법
- koNLPy
- stopwords
- Python
- DataFrame
- Seaborn
- 결측치
- subplots
- MSE
- 보간법
- 선형보간
- 파이썬
- interpolate
- 불용어
- 데이터프레임
- 누락값
- sklearn
- Today
- Total
목록전처리 (3)
ACAIT

영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석. 1. 데이터 샘플 추출 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬. 2. 데이터 전처리 2-1. 특수문자 및 초성 제거 작업 2-2. 긍부정 리뷰 분리 긍부정별로 단어 전체 리스트 생성. 2-3. konlpy.tag - Okt 전처리 Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환. 2-4. 상위 20개 단어 분석 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함. 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행. 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우..

텍스트 전처리에 대한 내용을 정리해 보겠습니다. 텍스트 전처리 특수문자, 공백 제거 등의 정제 작업 이후 한글과 영어에 따라 전처리 작업 진행. 0. 전처리 종류 토큰화(Tokenization): 주어진 텍스트 잔위를 토큰을 나누는 작업. ex) 나는 밥을 먹었다 -> 나는 / 밥을 / 먹었다 문장 토큰화 단어 토큰화: 일반적인 토큰화 작업 단어보다 더 작은 형태로 토큰화 가능: 나 / 는 정규화: go, goes 등 주어에 따라 달라지는 의미가 비슷한 단어들을 하나로 정규화. 어간 추출, 표제어 추출 품사 태깅: 명사나 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용. 1. 문장 토큰화 1-1. sent_tokenize(data) 온점 기준으로 한 문장씩 토큰화 진행. 2. 단어 토큰화 ..

리뷰 긍부정 분석 1. 리뷰 길이 컬럼 추가 2. 길이별 리뷰 긍부적 분석 수치만으로는 긍부정 리뷰 길이가 유사한 것으로 판단됨. 3. 긍부정 분리 분석 긍부정별로 빈도수가 높은 단어 확인. 3-1. 긍정 리뷰 전처리 3-2. 부정 리뷰 전처리 3-3. 종합 결론 긍정 리뷰에서 빈도가 높은 상위 키워드는 '최고의', '최고', '잘' 등이 있고, 부정 리뷰에서 빈도가 높은 상위 키워드는 '쓰레기' 등이 있다. 영화, 영화를, 이런 등 긍부정에 중복되는 의미없는 값을 제외하고 재분석 진행한다. 4. 중복 단어 제외 후 분석 4-1. 중복 제거 종합 결론 차집합으로 중복 제외 추출하니 순서가 섞이고, value_counts() 결과가 정확히 나오지 않아 판단하기 어려웠음. for문을 이용하여 분석한 결과 정..