일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 결측치
- Python
- value_counts
- 전처리
- subplots
- 파이썬
- countplot
- join
- 누락값
- 대치법
- IterativeImputer
- BDA
- sklearn
- 결측치대체
- koNLPy
- DataFrame
- Boxplot
- Seaborn
- stopwords
- matplotlib
- 데이터프레임
- MSE
- 선형보간
- SimpleImputer
- KoNLP
- 이상치
- interpolate
- Outlier
- 불용어
- 보간법
- Today
- Total
목록이상치 (3)
ACAIT

0. 예시 데이터로 이상치 확인 1. 이상치 관련 작업 1-1. 베이스라인 모델 회귀분석 # train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify) arrays: 분할시킬 데이터 입력 test_size: 테스트 데이터셋의 비율, 갯수(default = 0.25) train_size: 학습 데이터셋의 비율, 갯수(default = test_size의 나머지) random_state: 데이터 분할 시 셔플을 위한 시드값(int나 RandomState로 입력) shuffle: 셔플 여부(default = True) stratify: 지정한 Data 비율 유지. ex) Label Set인 Y가 25%의 0과 75%의 1인 ..

이상치와 관련된 내용을 복습하도록 하겠습니다. 결측치와 이상치는 다른 개념. 이상치(Outlier)는 값이 튀는 것. Outlier detection: 예상 범위를 벗어나는 것을 잡아야 함. Outlier로 회귀에 문제가 있는 이유: 하나의 직선을 그릴 때 해당 값 때문에 기울기가 많이 바뀜. 이상치 하나 때문에 다른 데이터도 설명하기 어려워지고, 회귀식에 영향을 미친다. 1. 이상치 찾는 방법 정규분포: 정규분포를 이룰 때 데이터 스케일링 작업 진행. IQR: Interquartile range의 약자로써 Q3 - Q1를 의미. "어디까지가 이상치 데이터다" 라고 판단하는 기준 중 하나. Isolation Forest: 데이터 트리 기반으로 나누고, 한쪽은 분류를 못하게 되면 이상치라고 생각하고 분류되..

1. 결측치 & 누락값 & 이상치에 대하여 1-1. 분석에서 결측치와 누락값은 중요한 내용 결측치(Na): 결측치일 수도 있고 정말 값이 'Na'일 수도 있다. 누락값(NaN): 휴먼 에러로 인한 누락값. 어떤 이유로 누락? 두 개의 공통점: 값이 없다. 1-2. 결측치와 누락값은 왜 처리? 분석에 방해. but, Na값이 정말 값이면 인사이트가 될 수도 있다. Na 결측치, 누락값이라 생각한다면 -> 방해가 된다는 것은 머신에게 학습시키기 위해 Na 값을 머신에게 학습시키기 위해 처리. 1-3. Na값이 왜 중요? x값이 누락값의 실제 값과 가장 유사히 대입하면 실제값과 예측값이 가장 같아짐. 결측치가 정말 중요하고, 단순히 접근할 범위가 아님. 결측치를 실제값과 유사하지 않게 적으면 결국 차이 발생,..