일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 보간법
- 불용어
- Python
- 데이터프레임
- countplot
- matplotlib
- interpolate
- subplots
- 누락값
- 선형보간
- IterativeImputer
- Outlier
- SimpleImputer
- Seaborn
- Boxplot
- KoNLP
- value_counts
- 이상치
- koNLPy
- stopwords
- sklearn
- MSE
- 결측치대체
- BDA
- 전처리
- 대치법
- join
- DataFrame
- 파이썬
- 결측치
- Today
- Total
목록보간법 (5)
ACAIT

시계열 데이터로 결측치 생성 및 대체, 시각화를 진행해 보도록 하겠습니다. seattle-weather.csv (출처: kaggle) date, precipitaion, temp_max, temp_min, wind, weather 여섯 개의 컬럼으로 이루어짐. y값을 precipitation으로 설정. 이외 사용할 컬럼은 temp_max, temp_min, wind. 시계열 데이터이므로 train_test_split 사용하면 안 됨. 따라서 인덱스 기준으로 데이터 분리해서 진행. (전체 데이터 중 7:3 비중) 결측값은 모든 컬럼에 최소 50개 이상 생성. 1. IterativeImputer(회귀대치)의 주요 파라미터 estimator(추정량): estimator object, default = Baye..

1. 보간법 보충 자료 1-1. Sklearn impute 결측치 보완 방법 여러 개. 아래는 다변량 보완 방법 코드. simplemputer: 간단하게 메우는 방식 iterativeImputer: 오늘 할 예정 KNNImputer: 거리 MissingINdicator 1-2. Iterative Imputer 결측치를 대체할 때 단순 선형 회귀 대치를 하면? 예시) 연령과 소득 데이터에서 소득에만 결측치. 연령과 소득에 대한 관계로 선형관계가 있다면 상관성을 보고 둘의 회귀식을 관계로 단순하게 결측치를 대체하는 것. 연령이 높아지면 소득도 올라간다는 패턴으로 단순히 잡아가게 됨. 이런 식으로 할 수는 있으나 너무 단순함. 확률적 회귀 대치법 단순 접근이 아니라 회귀식에 확률 오차항 추가해서 확률적으로 회..

- 수업 시간에 배운 linear, slinear, cubic, spline, time을 제외한 method로 코드를 실행해 보겠습니다. 731행 중 NaN값은 24개밖에 없어서 시각화에서 한 눈에 확인되지 않음. method별로 수치 변화를 확인하면서 과제 진행. 1. method = 'polynomial' - index 2, 727의 값이 대체된 것을 확인할 수 있음. index 2 = 0.272814 index 727 = 0.240904 2. method = 'values' - index 2, 727의 값이 대체된 것을 확인할 수 있음. index 2 = 0.282931 index 727 = 0.234521 3. method = 'nearest' - index 2, 727의 값이 대체된 것을 확인할..

1. 결측치 & 누락값 & 이상치에 대하여 1-1. 분석에서 결측치와 누락값은 중요한 내용 결측치(Na): 결측치일 수도 있고 정말 값이 'Na'일 수도 있다. 누락값(NaN): 휴먼 에러로 인한 누락값. 어떤 이유로 누락? 두 개의 공통점: 값이 없다. 1-2. 결측치와 누락값은 왜 처리? 분석에 방해. but, Na값이 정말 값이면 인사이트가 될 수도 있다. Na 결측치, 누락값이라 생각한다면 -> 방해가 된다는 것은 머신에게 학습시키기 위해 Na 값을 머신에게 학습시키기 위해 처리. 1-3. Na값이 왜 중요? x값이 누락값의 실제 값과 가장 유사히 대입하면 실제값과 예측값이 가장 같아짐. 결측치가 정말 중요하고, 단순히 접근할 범위가 아님. 결측치를 실제값과 유사하지 않게 적으면 결국 차이 발생,..