'결측치' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록결측치 (6)

ACAIT

[BDA 데분기] 5주차 - 이상치, Outlier

이상치와 관련된 내용을 복습하도록 하겠습니다. 결측치와 이상치는 다른 개념. 이상치(Outlier)는 값이 튀는 것. Outlier detection: 예상 범위를 벗어나는 것을 잡아야 함. Outlier로 회귀에 문제가 있는 이유: 하나의 직선을 그릴 때 해당 값 때문에 기울기가 많이 바뀜. 이상치 하나 때문에 다른 데이터도 설명하기 어려워지고, 회귀식에 영향을 미친다. 1. 이상치 찾는 방법 정규분포: 정규분포를 이룰 때 데이터 스케일링 작업 진행. IQR: Interquartile range의 약자로써 Q3 - Q1를 의미. "어디까지가 이상치 데이터다" 라고 판단하는 기준 중 하나. Isolation Forest: 데이터 트리 기반으로 나누고, 한쪽은 분류를 못하게 되면 이상치라고 생각하고 분류되..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 1. 31. 16:31

[BDA 데분기] 4주차 필수 과제 정리 - SimpleImputer, 시계열 데이터

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 1. 31. 16:11

[BDA 데분기] 4주차 필수 과제 2 - 시계열 데이터 결측치 대체, 시각화

시계열 데이터로 결측치 생성 및 대체, 시각화를 진행해 보도록 하겠습니다. seattle-weather.csv (출처: kaggle) date, precipitaion, temp_max, temp_min, wind, weather 여섯 개의 컬럼으로 이루어짐. y값을 precipitation으로 설정. 이외 사용할 컬럼은 temp_max, temp_min, wind. 시계열 데이터이므로 train_test_split 사용하면 안 됨. 따라서 인덱스 기준으로 데이터 분리해서 진행. (전체 데이터 중 7:3 비중) 결측값은 모든 컬럼에 최소 50개 이상 생성. 1. IterativeImputer(회귀대치)의 주요 파라미터 estimator(추정량): estimator object, default = Baye..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 1. 31. 16:01

[BDA 데분기] 4주차 필수 과제 1 - sklearn SimpleImputer

SimpleImputer 개념을 이해하고 코드 실습을 진행해 보겠습니다. 공식 홈페이지: https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html sklearn.impute.SimpleImputer Examples using sklearn.impute.SimpleImputer: Release Highlights for scikit-learn 1.1 Release Highlights for scikit-learn 0.23 Combine predictors using stacking Permutation Importance vs Random Fore... scikit-learn.org 1. SimpleImputer의..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 1. 31. 15:26

[BDA 데분기] 3주차 필수 과제 - interpolation 보간법 응용

- 수업 시간에 배운 linear, slinear, cubic, spline, time을 제외한 method로 코드를 실행해 보겠습니다. 731행 중 NaN값은 24개밖에 없어서 시각화에서 한 눈에 확인되지 않음. method별로 수치 변화를 확인하면서 과제 진행. 1. method = 'polynomial' - index 2, 727의 값이 대체된 것을 확인할 수 있음. index 2 = 0.272814 index 727 = 0.240904 2. method = 'values' - index 2, 727의 값이 대체된 것을 확인할 수 있음. index 2 = 0.282931 index 727 = 0.234521 3. method = 'nearest' - index 2, 727의 값이 대체된 것을 확인할..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 1. 8. 22:51

[BDA 데분기] 3주차 - 결측치, 누락값, 이상치 처리 방법

1. 결측치 & 누락값 & 이상치에 대하여 1-1. 분석에서 결측치와 누락값은 중요한 내용 결측치(Na): 결측치일 수도 있고 정말 값이 'Na'일 수도 있다. 누락값(NaN): 휴먼 에러로 인한 누락값. 어떤 이유로 누락? 두 개의 공통점: 값이 없다. 1-2. 결측치와 누락값은 왜 처리? 분석에 방해. but, Na값이 정말 값이면 인사이트가 될 수도 있다. Na 결측치, 누락값이라 생각한다면 -> 방해가 된다는 것은 머신에게 학습시키기 위해 Na 값을 머신에게 학습시키기 위해 처리. 1-3. Na값이 왜 중요? x값이 누락값의 실제 값과 가장 유사히 대입하면 실제값과 예측값이 가장 같아짐. 결측치가 정말 중요하고, 단순히 접근할 범위가 아님. 결측치를 실제값과 유사하지 않게 적으면 결국 차이 발생,..

학회 활동/BDA 7기(데이터 분석 기초반) 2024. 1. 8. 22:42

이전 Prev 1 Next 다음

목록결측치 (6)

ACAIT

티스토리툴바