일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- MSE
- Outlier
- 누락값
- 이상치
- subplots
- Boxplot
- 불용어
- 파이썬
- 전처리
- stopwords
- 대치법
- 선형보간
- 결측치
- koNLPy
- Python
- countplot
- value_counts
- join
- IterativeImputer
- 보간법
- SimpleImputer
- KoNLP
- Seaborn
- matplotlib
- sklearn
- DataFrame
- 데이터프레임
- 결측치대체
- interpolate
- BDA
- Today
- Total
목록sklearn (4)
ACAIT

0. 마트 월매출 데이터 전처리 과정 주별 집계 데이터. 테이블 생성 필요. datetime으로 데이터 유형 변경. 시계열 데이터는 dt.year, dt.month 등으로 데이터 일부 추출 가능. # apply(): 데이터 변환시키는 함수. df.apply(함수, axis = 0 or 1) (default = 0) ACF, PACF 함수 그래프 그리기 1 다음에 값이 바로 급격히 떨어지는 것을 보아 주기로 봤을 때 1주차 전에 영향이 있는 것으로 보인다. 그래프에 나온 것처럼 연말에 영향력이 있다는 것을 확인할 수 있다. 1. 회귀분석을 통한 예측 다항회귀 개념의 예측. 변수를 여럿 사용할 수 있다. Nan값을 다 0으로 대체해서 가중치가 잘못 잡혀 좋지 않은 결과가 나옴. 다중회귀 진행인데 스케일링 진..

이상치와 관련된 내용을 복습하도록 하겠습니다. 결측치와 이상치는 다른 개념. 이상치(Outlier)는 값이 튀는 것. Outlier detection: 예상 범위를 벗어나는 것을 잡아야 함. Outlier로 회귀에 문제가 있는 이유: 하나의 직선을 그릴 때 해당 값 때문에 기울기가 많이 바뀜. 이상치 하나 때문에 다른 데이터도 설명하기 어려워지고, 회귀식에 영향을 미친다. 1. 이상치 찾는 방법 정규분포: 정규분포를 이룰 때 데이터 스케일링 작업 진행. IQR: Interquartile range의 약자로써 Q3 - Q1를 의미. "어디까지가 이상치 데이터다" 라고 판단하는 기준 중 하나. Isolation Forest: 데이터 트리 기반으로 나누고, 한쪽은 분류를 못하게 되면 이상치라고 생각하고 분류되..

SimpleImputer 개념을 이해하고 코드 실습을 진행해 보겠습니다. 공식 홈페이지: https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html sklearn.impute.SimpleImputer Examples using sklearn.impute.SimpleImputer: Release Highlights for scikit-learn 1.1 Release Highlights for scikit-learn 0.23 Combine predictors using stacking Permutation Importance vs Random Fore... scikit-learn.org 1. SimpleImputer의..

1. 보간법 보충 자료 1-1. Sklearn impute 결측치 보완 방법 여러 개. 아래는 다변량 보완 방법 코드. simplemputer: 간단하게 메우는 방식 iterativeImputer: 오늘 할 예정 KNNImputer: 거리 MissingINdicator 1-2. Iterative Imputer 결측치를 대체할 때 단순 선형 회귀 대치를 하면? 예시) 연령과 소득 데이터에서 소득에만 결측치. 연령과 소득에 대한 관계로 선형관계가 있다면 상관성을 보고 둘의 회귀식을 관계로 단순하게 결측치를 대체하는 것. 연령이 높아지면 소득도 올라간다는 패턴으로 단순히 잡아가게 됨. 이런 식으로 할 수는 있으나 너무 단순함. 확률적 회귀 대치법 단순 접근이 아니라 회귀식에 확률 오차항 추가해서 확률적으로 회..