Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 불용어
- IterativeImputer
- BDA
- MSE
- KoNLP
- SimpleImputer
- Seaborn
- 누락값
- 보간법
- 선형보간
- 전처리
- countplot
- interpolate
- 이상치
- DataFrame
- Outlier
- 파이썬
- Python
- 결측치대체
- matplotlib
- 결측치
- Boxplot
- subplots
- sklearn
- 대치법
- value_counts
- koNLPy
- stopwords
- 데이터프레임
- join
Archives
- Today
- Total
ACAIT
[BDA 데분기] 13주차 필수 과제 2 - konlpy로 영화 리뷰 분석 본문
- 영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석.
1. 데이터 샘플 추출
- 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬.
2. 데이터 전처리
2-1. 특수문자 및 초성 제거 작업
2-2. 긍부정 리뷰 분리
- 긍부정별로 단어 전체 리스트 생성.
2-3. konlpy.tag - Okt 전처리
- Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환.
2-4. 상위 20개 단어 분석
- 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함.
- 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행.
- 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우, 각 원소가 한 번씩만 반환되어 빈도수를 파악할 수 없음.
- 그러므로 반복문으로 분석 진행.
2-5. 긍부정 중복 단어 제외 분석
- 긍정의 경우 굿굿, 잼나요, 빠져든다 등의 단어가 상위에 포진해 있음.
- 부정의 경우 잤다, 별 하나, 오글거림 등의 단어가 상위에 포진해 있음.
'학회 활동 > BDA 7기(데이터 분석 기초반)' 카테고리의 다른 글
[BDA 데분기] 13주차 - 텍스트 전처리, 토큰화, 태깅 (1) | 2024.02.01 |
---|---|
[BDA 데분기] 12주차 필수 과제 2 - 영화 리뷰 분석 (0) | 2024.02.01 |
[BDA 데분기] 12주차 필수 과제 1 - 문자열 관련 함수 총 정리 (1) | 2024.02.01 |
[BDA 데분기] 12주차 - 문자열 관련 함수 (0) | 2024.01.31 |
[BDA 데분기] 11주차 - 데이터 전처리 (1) | 2024.01.31 |