Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- 전처리
- subplots
- countplot
- BDA
- 결측치
- IterativeImputer
- stopwords
- 대치법
- 이상치
- matplotlib
- SimpleImputer
- Python
- sklearn
- DataFrame
- koNLPy
- 결측치대체
- 데이터프레임
- 누락값
- 파이썬
- 선형보간
- KoNLP
- interpolate
- Outlier
- MSE
- Boxplot
- 불용어
- value_counts
- join
- 보간법
- Seaborn
Archives
- Today
- Total
ACAIT
[BDA 데분기] 4주차 필수 과제 1 - sklearn SimpleImputer 본문
SimpleImputer 개념을 이해하고 코드 실습을 진행해 보겠습니다.
sklearn.impute.SimpleImputer
Examples using sklearn.impute.SimpleImputer: Release Highlights for scikit-learn 1.1 Release Highlights for scikit-learn 0.23 Combine predictors using stacking Permutation Importance vs Random Fore...
scikit-learn.org

1. SimpleImputer의 주요 파라미터
1. missing_values
- 결측치 값
- default: NaN
- 만약 결측치 값이 -1이라면 missing_values = -1
2. strategy
- 결측치 대체 방법
- default: mean
- ex) mean(평균), median(중앙값), most_frequent(최빈값), constant(지정값) 등
3. fill_value
- strategy에서 constant 사용 시 대체할 상수값 입력
- default: 0(None)
1-1. SimpleImputer 사용법
- fit()으로 strategy 값 계산 → transform()으로 결측치 값 대체.
- fit(): 데이터를 학습시키는 메서드.
- transform(): 실제 학습시킨 것을 적용하는 메서드.
train data로부터 학습된 mean 값과 variance 값을 test data에 적용하기 위해 사용. - fit_transform(): fit()과 transform() 대상이 같으면 fit_transform()으로 바로 처리.
fittrain dataset에서만 사용.






2. SimpleImputer 적용해 보기

2-1. 디폴트, 평균값으로 대체해 보기: strategy = "mean"



2-2. 중앙값으로 대체해 보기: strategy = "median"



2-3. 최빈값으로 대체해 보기: strategy = "most_frequent"



2-4. 지정값으로 대체해 보기: strategy = "constant", fill_value = 상수



2-5. 결과 전체 비교

'학회 활동 > BDA 7기(데이터 분석 기초반)' 카테고리의 다른 글
| [BDA 데분기] 4주차 필수 과제 정리 - SimpleImputer, 시계열 데이터 (0) | 2024.01.31 |
|---|---|
| [BDA 데분기] 4주차 필수 과제 2 - 시계열 데이터 결측치 대체, 시각화 (0) | 2024.01.31 |
| [BDA 데분기] 4주차 - 보간법 보충, sklearn, statsmodels (1) | 2024.01.08 |
| [BDA 데분기] 3주차 필수 과제 - interpolation 보간법 응용 (0) | 2024.01.08 |
| [BDA 데분기] 3주차 - 결측치, 누락값, 이상치 처리 방법 (0) | 2024.01.08 |