ACAIT

[BDA 데분기] 13주차 필수 과제 2 - konlpy로 영화 리뷰 분석 본문

학회 활동/BDA 7기(데이터 분석 기초반)

[BDA 데분기] 13주차 필수 과제 2 - konlpy로 영화 리뷰 분석

831x99 2024. 2. 1. 00:58
  • 영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석.


1. 데이터 샘플 추출

  • 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬.


2. 데이터 전처리

2-1. 특수문자 및 초성 제거 작업


2-2. 긍부정 리뷰 분리

  • 긍부정별로 단어 전체 리스트 생성.


2-3. konlpy.tag - Okt 전처리

  • Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환.



2-4. 상위 20개 단어 분석

  • 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함.
  • 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행.
  • 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우, 각 원소가 한 번씩만 반환되어 빈도수를 파악할 수 없음.
  • 그러므로 반복문으로 분석 진행.

2-5. 긍부정 중복 단어 제외 분석

  • 긍정의 경우 굿굿, 잼나요, 빠져든다 등의 단어가 상위에 포진해 있음.
  • 부정의 경우 잤다, 별 하나, 오글거림 등의 단어가 상위에 포진해 있음.