일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 결측치대체
- 누락값
- MSE
- 전처리
- Seaborn
- Python
- value_counts
- 파이썬
- Outlier
- 이상치
- subplots
- 선형보간
- 불용어
- DataFrame
- 대치법
- Boxplot
- sklearn
- interpolate
- koNLPy
- matplotlib
- countplot
- join
- SimpleImputer
- BDA
- stopwords
- 데이터프레임
- 보간법
- 결측치
- KoNLP
- IterativeImputer
- Today
- Total
목록파이썬 (11)
ACAIT

리뷰 긍부정 분석 1. 리뷰 길이 컬럼 추가 2. 길이별 리뷰 긍부적 분석 수치만으로는 긍부정 리뷰 길이가 유사한 것으로 판단됨. 3. 긍부정 분리 분석 긍부정별로 빈도수가 높은 단어 확인. 3-1. 긍정 리뷰 전처리 3-2. 부정 리뷰 전처리 3-3. 종합 결론 긍정 리뷰에서 빈도가 높은 상위 키워드는 '최고의', '최고', '잘' 등이 있고, 부정 리뷰에서 빈도가 높은 상위 키워드는 '쓰레기' 등이 있다. 영화, 영화를, 이런 등 긍부정에 중복되는 의미없는 값을 제외하고 재분석 진행한다. 4. 중복 단어 제외 후 분석 4-1. 중복 제거 종합 결론 차집합으로 중복 제외 추출하니 순서가 섞이고, value_counts() 결과가 정확히 나오지 않아 판단하기 어려웠음. for문을 이용하여 분석한 결과 정..

kaggle에 있는 저수지에 대한 데이터. kaggle에서 데이터 분석 내용 코드 가지고 와서 어떻게 분석했는지 확인하는 실습. 시계열 데이터를 어떤 식으로 대체하고 확인하는지 캐글 전문가들의 코드를 보면서 인사이트 얻기 위한 것. 이 인사이트를 가지고 전처리 준비하면 좋음. 아래 코드는 line 그래프 하나씩 그리면서 어디에 문제 있는지, 어디를 대체해야 하는지 확인하고 있음. 패턴과 결측치에 대해서 보간법으로 잡고, 해당 df에 결측값 없도록 처리했음. 해당 분석은 daily, wikely, monthly, yearly 등으로 접근했음. 출처: https://www.kaggle.com/code/iamleonie/intro-to-time-series-forecasting Intro to Time Ser..

데이터 병합에 대해 배운 내용을 정리해 보겠습니다. SQL의 join과 같은 역할. 원하는 테이블 쿼리로 추출. 파이썬도 동일하게 작업 가능. SQL은 빠르게 확인할 때, 파이썬은 환경이나 제약조건이 있어서 무겁게 데이터 다뤄야 함. 하지만 충분히 데이터 병합에 대한 스킬 향상 필요. merge(), concat() 잘 이해하기. R, Python, SQL 병합 맥락 모두 같음. 하나 능숙해지면 나머지도 쉬움. 1. concat() 덩어리 + 덩어리. 데이터프레임끼리 서로 합치는 경우. join 조건 없는 상황에 쓰임. axis: 축 설정. '0 = 0행, 1열 기준.' ignore_index: 병합 후 인덱스 재설정. 1-1. concat 사용 case 시계열 인덱스 기준, 날짜 기준으로 데이터 붙이는..

1. melt() 2. pivot(): 피벗테이블 index = 행으로 전환시킬 열 지정. columns = 열로 둘 열 지정. values = 값으로 입력될 열 지정. default = index와 columns에 입력되지 않은 모든 열.

1. reindex(): 인덱스 생성 2. unique(): 중복 제거 후 모든 값 반환. 3. value_counts(): 값이 몇 번 중복되는지 반환. 4. rank(): 순위를 매기기 위한 메서드. default: 오름차순. 값이 작은 데이터를 1순위로 지정.

0. 예시 데이터로 이상치 확인 1. 이상치 관련 작업 1-1. 베이스라인 모델 회귀분석 # train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify) arrays: 분할시킬 데이터 입력 test_size: 테스트 데이터셋의 비율, 갯수(default = 0.25) train_size: 학습 데이터셋의 비율, 갯수(default = test_size의 나머지) random_state: 데이터 분할 시 셔플을 위한 시드값(int나 RandomState로 입력) shuffle: 셔플 여부(default = True) stratify: 지정한 Data 비율 유지. ex) Label Set인 Y가 25%의 0과 75%의 1인 ..

이상치와 관련된 내용을 복습하도록 하겠습니다. 결측치와 이상치는 다른 개념. 이상치(Outlier)는 값이 튀는 것. Outlier detection: 예상 범위를 벗어나는 것을 잡아야 함. Outlier로 회귀에 문제가 있는 이유: 하나의 직선을 그릴 때 해당 값 때문에 기울기가 많이 바뀜. 이상치 하나 때문에 다른 데이터도 설명하기 어려워지고, 회귀식에 영향을 미친다. 1. 이상치 찾는 방법 정규분포: 정규분포를 이룰 때 데이터 스케일링 작업 진행. IQR: Interquartile range의 약자로써 Q3 - Q1를 의미. "어디까지가 이상치 데이터다" 라고 판단하는 기준 중 하나. Isolation Forest: 데이터 트리 기반으로 나누고, 한쪽은 분류를 못하게 되면 이상치라고 생각하고 분류되..

시계열 데이터로 결측치 생성 및 대체, 시각화를 진행해 보도록 하겠습니다. seattle-weather.csv (출처: kaggle) date, precipitaion, temp_max, temp_min, wind, weather 여섯 개의 컬럼으로 이루어짐. y값을 precipitation으로 설정. 이외 사용할 컬럼은 temp_max, temp_min, wind. 시계열 데이터이므로 train_test_split 사용하면 안 됨. 따라서 인덱스 기준으로 데이터 분리해서 진행. (전체 데이터 중 7:3 비중) 결측값은 모든 컬럼에 최소 50개 이상 생성. 1. IterativeImputer(회귀대치)의 주요 파라미터 estimator(추정량): estimator object, default = Baye..