'Tokenize' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Tokenize (1)

ACAIT

[BDA 데분기] 13주차 - 텍스트 전처리, 토큰화, 태깅

텍스트 전처리에 대한 내용을 정리해 보겠습니다. 텍스트 전처리 특수문자, 공백 제거 등의 정제 작업 이후 한글과 영어에 따라 전처리 작업 진행. 0. 전처리 종류 토큰화(Tokenization): 주어진 텍스트 잔위를 토큰을 나누는 작업. ex) 나는 밥을 먹었다 -> 나는 / 밥을 / 먹었다 문장 토큰화 단어 토큰화: 일반적인 토큰화 작업 단어보다 더 작은 형태로 토큰화 가능: 나 / 는 정규화: go, goes 등 주어에 따라 달라지는 의미가 비슷한 단어들을 하나로 정규화. 어간 추출, 표제어 추출 품사 태깅: 명사나 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용. 1. 문장 토큰화 1-1. sent_tokenize(data) 온점 기준으로 한 문장씩 토큰화 진행. 2. 단어 토큰화 ..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 2. 1. 00:24

이전 Prev 1 Next 다음

목록Tokenize (1)

ACAIT

티스토리툴바