'전처리' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전처리 (3)

ACAIT

[BDA 데분기] 13주차 필수 과제 2 - konlpy로 영화 리뷰 분석

영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석. 1. 데이터 샘플 추출 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬. 2. 데이터 전처리 2-1. 특수문자 및 초성 제거 작업 2-2. 긍부정 리뷰 분리 긍부정별로 단어 전체 리스트 생성. 2-3. konlpy.tag - Okt 전처리 Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환. 2-4. 상위 20개 단어 분석 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함. 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행. 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:58

[BDA 데분기] 13주차 - 텍스트 전처리, 토큰화, 태깅

텍스트 전처리에 대한 내용을 정리해 보겠습니다. 텍스트 전처리 특수문자, 공백 제거 등의 정제 작업 이후 한글과 영어에 따라 전처리 작업 진행. 0. 전처리 종류 토큰화(Tokenization): 주어진 텍스트 잔위를 토큰을 나누는 작업. ex) 나는 밥을 먹었다 -> 나는 / 밥을 / 먹었다 문장 토큰화 단어 토큰화: 일반적인 토큰화 작업 단어보다 더 작은 형태로 토큰화 가능: 나 / 는 정규화: go, goes 등 주어에 따라 달라지는 의미가 비슷한 단어들을 하나로 정규화. 어간 추출, 표제어 추출 품사 태깅: 명사나 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용. 1. 문장 토큰화 1-1. sent_tokenize(data) 온점 기준으로 한 문장씩 토큰화 진행. 2. 단어 토큰화 ..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:24

[BDA 데분기] 12주차 필수 과제 2 - 영화 리뷰 분석

리뷰 긍부정 분석 1. 리뷰 길이 컬럼 추가 2. 길이별 리뷰 긍부적 분석 수치만으로는 긍부정 리뷰 길이가 유사한 것으로 판단됨. 3. 긍부정 분리 분석 긍부정별로 빈도수가 높은 단어 확인. 3-1. 긍정 리뷰 전처리 3-2. 부정 리뷰 전처리 3-3. 종합 결론 긍정 리뷰에서 빈도가 높은 상위 키워드는 '최고의', '최고', '잘' 등이 있고, 부정 리뷰에서 빈도가 높은 상위 키워드는 '쓰레기' 등이 있다. 영화, 영화를, 이런 등 긍부정에 중복되는 의미없는 값을 제외하고 재분석 진행한다. 4. 중복 단어 제외 후 분석 4-1. 중복 제거 종합 결론 차집합으로 중복 제외 추출하니 순서가 섞이고, value_counts() 결과가 정확히 나오지 않아 판단하기 어려웠음. for문을 이용하여 분석한 결과 정..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:13

이전 Prev 1 Next 다음

목록전처리 (3)

ACAIT

티스토리툴바