'stopwords' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록stopwords (3)

ACAIT

[BDA 데분기] 13주차 필수 과제 1 - 한글 불용어 리스트 생성

영화 리뷰 데이터 분석해서 불용어 리스트 생성

카테고리 없음 2024. 2. 1. 00:29

[BDA 데분기] 13주차 - 텍스트 전처리, 토큰화, 태깅

텍스트 전처리에 대한 내용을 정리해 보겠습니다. 텍스트 전처리 특수문자, 공백 제거 등의 정제 작업 이후 한글과 영어에 따라 전처리 작업 진행. 0. 전처리 종류 토큰화(Tokenization): 주어진 텍스트 잔위를 토큰을 나누는 작업. ex) 나는 밥을 먹었다 -> 나는 / 밥을 / 먹었다 문장 토큰화 단어 토큰화: 일반적인 토큰화 작업 단어보다 더 작은 형태로 토큰화 가능: 나 / 는 정규화: go, goes 등 주어에 따라 달라지는 의미가 비슷한 단어들을 하나로 정규화. 어간 추출, 표제어 추출 품사 태깅: 명사나 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용. 1. 문장 토큰화 1-1. sent_tokenize(data) 온점 기준으로 한 문장씩 토큰화 진행. 2. 단어 토큰화 ..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:24

[BDA 데분기] 12주차 필수 과제 2 - 영화 리뷰 분석

리뷰 긍부정 분석 1. 리뷰 길이 컬럼 추가 2. 길이별 리뷰 긍부적 분석 수치만으로는 긍부정 리뷰 길이가 유사한 것으로 판단됨. 3. 긍부정 분리 분석 긍부정별로 빈도수가 높은 단어 확인. 3-1. 긍정 리뷰 전처리 3-2. 부정 리뷰 전처리 3-3. 종합 결론 긍정 리뷰에서 빈도가 높은 상위 키워드는 '최고의', '최고', '잘' 등이 있고, 부정 리뷰에서 빈도가 높은 상위 키워드는 '쓰레기' 등이 있다. 영화, 영화를, 이런 등 긍부정에 중복되는 의미없는 값을 제외하고 재분석 진행한다. 4. 중복 단어 제외 후 분석 4-1. 중복 제거 종합 결론 차집합으로 중복 제외 추출하니 순서가 섞이고, value_counts() 결과가 정확히 나오지 않아 판단하기 어려웠음. for문을 이용하여 분석한 결과 정..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:13

이전 Prev 1 Next 다음

목록stopwords (3)

ACAIT

티스토리툴바