'KoNLP' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록KoNLP (3)

ACAIT

[BDA 데분기] 13주차 필수 과제 2 - konlpy로 영화 리뷰 분석

영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석. 1. 데이터 샘플 추출 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬. 2. 데이터 전처리 2-1. 특수문자 및 초성 제거 작업 2-2. 긍부정 리뷰 분리 긍부정별로 단어 전체 리스트 생성. 2-3. konlpy.tag - Okt 전처리 Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환. 2-4. 상위 20개 단어 분석 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함. 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행. 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:58

[BDA 데분기] 13주차 필수 과제 1 - 한글 불용어 리스트 생성

영화 리뷰 데이터 분석해서 불용어 리스트 생성

카테고리 없음 2024. 2. 1. 00:29

[BDA 데분기] 13주차 - 텍스트 전처리, 토큰화, 태깅

텍스트 전처리에 대한 내용을 정리해 보겠습니다. 텍스트 전처리 특수문자, 공백 제거 등의 정제 작업 이후 한글과 영어에 따라 전처리 작업 진행. 0. 전처리 종류 토큰화(Tokenization): 주어진 텍스트 잔위를 토큰을 나누는 작업. ex) 나는 밥을 먹었다 -> 나는 / 밥을 / 먹었다 문장 토큰화 단어 토큰화: 일반적인 토큰화 작업 단어보다 더 작은 형태로 토큰화 가능: 나 / 는 정규화: go, goes 등 주어에 따라 달라지는 의미가 비슷한 단어들을 하나로 정규화. 어간 추출, 표제어 추출 품사 태깅: 명사나 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용. 1. 문장 토큰화 1-1. sent_tokenize(data) 온점 기준으로 한 문장씩 토큰화 진행. 2. 단어 토큰화 ..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:24

이전 Prev 1 Next 다음

목록KoNLP (3)

ACAIT

티스토리툴바