| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 대치법
- 전처리
- Seaborn
- 데이터프레임
- 누락값
- DataFrame
- Boxplot
- 파이썬
- IterativeImputer
- 보간법
- join
- countplot
- value_counts
- 결측치대체
- BDA
- matplotlib
- 선형보간
- 결측치
- SimpleImputer
- stopwords
- Python
- KoNLP
- MSE
- Outlier
- subplots
- sklearn
- interpolate
- koNLPy
- 이상치
- 불용어
- Today
- Total
목록join (4)
ACAIT
영화 리뷰 konlpy 이용해서 명사, 동사 추출하고 의미 있는 단어 분석. 1. 데이터 샘플 추출 15만 개 데이터 중 임의의 데이터 1만 개 추출 후 기존 인덱스로 다시 정렬. 2. 데이터 전처리 2-1. 특수문자 및 초성 제거 작업 2-2. 긍부정 리뷰 분리 긍부정별로 단어 전체 리스트 생성. 2-3. konlpy.tag - Okt 전처리 Okt.pos()를 이용해 명사, 동사만 분리하는 사용자 선언 함수를 만들어 단어 리스트 반환. 2-4. 상위 20개 단어 분석 상위 20개의 단어를 확인한 결과 영화, 점, 진짜, 이, 것 등과 같이 긍부정을 파악할 수 없는 단어가 많이 존재함. 두 리스트에 동시에 속한 원소를 제외하고 재분석 진행. 리스트를 set()으로 집합으로 변환하여 차집합을 진행할 경우..
1. split() 문자열 나누는 함수. 구분자, 원하는 값으로 나누기. n: 구분자 기준으로 몇 번 나눌지. expand = True: 여러 컬럼으로 나누기. expand = False: 1개 컬럼에 나누기. 2. capitalize() 첫 문자를 대문자로 변환. 3. lower() 전부 소문자로 변환. 4. upper() 전부 대문자로 변환. 5. center(width, fillchar = ) 문자열 너비 지정 후 문자열 가운데 정렬하고 양쪽에 문자 채움. 6. count(char) 특정 문자 갯수 반환. 7. find(패턴, start, end), findall() 문자열 내에서 인자로 받은 문자열, 패턴을 찾아 인덱스를 반환하는 함수. 기존 문자열의 시작, 끝 인덱스로 찾을 범위를 지정할 수 있..
데이터 병합에 대해 배운 내용을 정리해 보겠습니다. SQL의 join과 같은 역할. 원하는 테이블 쿼리로 추출. 파이썬도 동일하게 작업 가능. SQL은 빠르게 확인할 때, 파이썬은 환경이나 제약조건이 있어서 무겁게 데이터 다뤄야 함. 하지만 충분히 데이터 병합에 대한 스킬 향상 필요. merge(), concat() 잘 이해하기. R, Python, SQL 병합 맥락 모두 같음. 하나 능숙해지면 나머지도 쉬움. 1. concat() 덩어리 + 덩어리. 데이터프레임끼리 서로 합치는 경우. join 조건 없는 상황에 쓰임. axis: 축 설정. '0 = 0행, 1열 기준.' ignore_index: 병합 후 인덱스 재설정. 1-1. concat 사용 case 시계열 인덱스 기준, 날짜 기준으로 데이터 붙이는..