일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 전처리
- matplotlib
- Seaborn
- 누락값
- BDA
- value_counts
- join
- KoNLP
- 파이썬
- 대치법
- sklearn
- 결측치대체
- subplots
- koNLPy
- interpolate
- Python
- 보간법
- Outlier
- SimpleImputer
- stopwords
- MSE
- Boxplot
- DataFrame
- countplot
- 이상치
- 선형보간
- IterativeImputer
- 데이터프레임
- 결측치
- 불용어
- Today
- Total
목록전체 보기 (124)
ACAIT

영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석. 1. 데이터 샘플 추출 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬. 2. 데이터 전처리 2-1. 특수문자 및 초성 제거 작업 2-2. 긍부정 리뷰 분리 긍부정별로 단어 전체 리스트 생성. 2-3. konlpy.tag - Okt 전처리 Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환. 2-4. 상위 20개 단어 분석 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함. 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행. 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우..

텍스트 전처리에 대한 내용을 정리해 보겠습니다. 텍스트 전처리 특수문자, 공백 제거 등의 정제 작업 이후 한글과 영어에 따라 전처리 작업 진행. 0. 전처리 종류 토큰화(Tokenization): 주어진 텍스트 잔위를 토큰을 나누는 작업. ex) 나는 밥을 먹었다 -> 나는 / 밥을 / 먹었다 문장 토큰화 단어 토큰화: 일반적인 토큰화 작업 단어보다 더 작은 형태로 토큰화 가능: 나 / 는 정규화: go, goes 등 주어에 따라 달라지는 의미가 비슷한 단어들을 하나로 정규화. 어간 추출, 표제어 추출 품사 태깅: 명사나 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용. 1. 문장 토큰화 1-1. sent_tokenize(data) 온점 기준으로 한 문장씩 토큰화 진행. 2. 단어 토큰화 ..

리뷰 긍부정 분석 1. 리뷰 길이 컬럼 추가 2. 길이별 리뷰 긍부적 분석 수치만으로는 긍부정 리뷰 길이가 유사한 것으로 판단됨. 3. 긍부정 분리 분석 긍부정별로 빈도수가 높은 단어 확인. 3-1. 긍정 리뷰 전처리 3-2. 부정 리뷰 전처리 3-3. 종합 결론 긍정 리뷰에서 빈도가 높은 상위 키워드는 '최고의', '최고', '잘' 등이 있고, 부정 리뷰에서 빈도가 높은 상위 키워드는 '쓰레기' 등이 있다. 영화, 영화를, 이런 등 긍부정에 중복되는 의미없는 값을 제외하고 재분석 진행한다. 4. 중복 단어 제외 후 분석 4-1. 중복 제거 종합 결론 차집합으로 중복 제외 추출하니 순서가 섞이고, value_counts() 결과가 정확히 나오지 않아 판단하기 어려웠음. for문을 이용하여 분석한 결과 정..

1. split() 문자열 나누는 함수. 구분자, 원하는 값으로 나누기. n: 구분자 기준으로 몇 번 나눌지. expand = True: 여러 컬럼으로 나누기. expand = False: 1개 컬럼에 나누기. 2. capitalize() 첫 문자를 대문자로 변환. 3. lower() 전부 소문자로 변환. 4. upper() 전부 대문자로 변환. 5. center(width, fillchar = ) 문자열 너비 지정 후 문자열 가운데 정렬하고 양쪽에 문자 채움. 6. count(char) 특정 문자 갯수 반환. 7. find(패턴, start, end), findall() 문자열 내에서 인자로 받은 문자열, 패턴을 찾아 인덱스를 반환하는 함수. 기존 문자열의 시작, 끝 인덱스로 찾을 범위를 지정할 수 있..

1. re, regex: 정규표현식 match(), fullmatch(), findall(), search() 등의 함수가 있는 모듈. 문자열 처리 시 다앙한 사례에서 요구하는 조건의 패턴, 처리 방식을 만들어 처리하는 방법. split, strip, 등의 문자열 문법이 정규표현식과 사용하면 다양한 응용 가능. 이메일 주소 찾기, 아이디/비번 패턴 찾기 등 다양한 패턴 만들 수 있음. 숫자 [0-9] 소문자 [a-z] 대문자 [A-Z] 한글 [가-힣] 자음모음 [ㄱ-ㅎ][ㅏ-ㅣ] ^: Not. 제외하고 전부. '+', '*': 0개 이상 또는 1개 이상의 패턴을 모두 찾는 것. # 약어 \d 모든 숫자 \D 모든 숫자 제외 \w 영문, 대소문자, 숫자, 밑줄 문자 포함 \W 상기 제외 1-1. match..

0. 마트 월매출 데이터 전처리 과정 주별 집계 데이터. 테이블 생성 필요. datetime으로 데이터 유형 변경. 시계열 데이터는 dt.year, dt.month 등으로 데이터 일부 추출 가능. # apply(): 데이터 변환시키는 함수. df.apply(함수, axis = 0 or 1) (default = 0) ACF, PACF 함수 그래프 그리기 1 다음에 값이 바로 급격히 떨어지는 것을 보아 주기로 봤을 때 1주차 전에 영향이 있는 것으로 보인다. 그래프에 나온 것처럼 연말에 영향력이 있다는 것을 확인할 수 있다. 1. 회귀분석을 통한 예측 다항회귀 개념의 예측. 변수를 여럿 사용할 수 있다. Nan값을 다 0으로 대체해서 가중치가 잘못 잡혀 좋지 않은 결과가 나옴. 다중회귀 진행인데 스케일링 진..

kaggle에 있는 저수지에 대한 데이터. kaggle에서 데이터 분석 내용 코드 가지고 와서 어떻게 분석했는지 확인하는 실습. 시계열 데이터를 어떤 식으로 대체하고 확인하는지 캐글 전문가들의 코드를 보면서 인사이트 얻기 위한 것. 이 인사이트를 가지고 전처리 준비하면 좋음. 아래 코드는 line 그래프 하나씩 그리면서 어디에 문제 있는지, 어디를 대체해야 하는지 확인하고 있음. 패턴과 결측치에 대해서 보간법으로 잡고, 해당 df에 결측값 없도록 처리했음. 해당 분석은 daily, wikely, monthly, yearly 등으로 접근했음. 출처: https://www.kaggle.com/code/iamleonie/intro-to-time-series-forecasting Intro to Time Ser..

crime 데이터로 시계열, 시각화 분석 0. 데이터 타입 수정 및 인덱스 추가 1. 범죄 분석 1-1. 연도별 범죄 발생 추세 2012년부터 계속하여 범죄 비율이 상승한 것으로 확인된다. 2017년은 건수는 적으나 9월까지 반영된 자료이므로 기간에 비해 비율이 높은 것으로 해석된다. 1-2. 월별 교통사고 발생 추세 7, 8월의 가장 범죄 비율이 높은 것으로 나타난다. 건수로 시각화를 진행하더라도 7, 8월이 여전히 높은 비중을 차지하고 있다. 1-3. 연월별 범죄 발생 추세 6, 7, 8월은 범죄 비율 상위권에 꾸준히 위치하고, 1, 3, 4월은 2014년부터 상위권을 유지하는 것으로 확인된다. 1-4. 타입별 범죄 추세 상위 5개의 타입은 차량 물건 도난, 기타 교통, 차량 도난, 기타 도난, 자동..