ACAIT

[BDA 데분기] 4주차 필수 과제 1 - sklearn SimpleImputer 본문

학회 활동/BDA 7기(데이터 분석 기초반)

[BDA 데분기] 4주차 필수 과제 1 - sklearn SimpleImputer

831x99 2024. 1. 31. 15:26

SimpleImputer 개념을 이해하고 코드 실습을 진행해 보겠습니다.

 

sklearn.impute.SimpleImputer

Examples using sklearn.impute.SimpleImputer: Release Highlights for scikit-learn 1.1 Release Highlights for scikit-learn 0.23 Combine predictors using stacking Permutation Importance vs Random Fore...

scikit-learn.org

 

 

1. SimpleImputer의 주요 파라미터

   1. missing_values

  • 결측치 값
  • default: NaN
  • 만약 결측치 값이 -1이라면 missing_values = -1

   2. strategy

  • 결측치 대체 방법
  • default: mean
  • ex) mean(평균), median(중앙값), most_frequent(최빈값), constant(지정값) 등

   3. fill_value

  • strategy에서 constant 사용 시 대체할 상수값 입력
  • default: 0(None)

1-1. SimpleImputer 사용법

  • fit()으로 strategy 값 계산 → transform()으로 결측치 값 대체.
  • fit(): 데이터를 학습시키는 메서드.
  • transform(): 실제 학습시킨 것을 적용하는 메서드.
    train data로부터 학습된 mean 값과 variance 값을 test data에 적용하기 위해 사용.
  • fit_transform(): fit()과 transform() 대상이 같으면 fit_transform()으로 바로 처리.
    fittrain dataset에서만 사용.


2. SimpleImputer 적용해 보기

 

2-1. 디폴트, 평균값으로 대체해 보기: strategy = "mean"

 

2-2. 중앙값으로 대체해 보기: strategy = "median"

 

2-3. 최빈값으로 대체해 보기: strategy = "most_frequent"

 

2-4. 지정값으로 대체해 보기: strategy = "constant", fill_value = 상수

 

 

2-5. 결과 전체 비교