Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- value_counts
- join
- MSE
- 이상치
- BDA
- 대치법
- koNLPy
- 전처리
- Boxplot
- interpolate
- 선형보간
- SimpleImputer
- DataFrame
- sklearn
- 결측치
- subplots
- 보간법
- 데이터프레임
- KoNLP
- countplot
- Python
- Outlier
- 불용어
- IterativeImputer
- matplotlib
- 결측치대체
- 누락값
- 파이썬
- stopwords
- Seaborn
Archives
- Today
- Total
ACAIT
[BDA 데분기] 6주차 - Series, DataFrame 관련 함수 본문
Series와 DataFrame 전처리와 관련된 함수들을 정리해 보겠습니다.
1. groupby()






2. merge()
- 데이터끼리 합치는 경우.
- 실무 DA에서는 sql이면 충분, DS 데이터셋 정리 시 활용.
- 테이블 병합하고 정리해서 우리가 원하는 테스트셋 만드는 경우.
- pandas 많이 사용.
- 데이터간 병합으로 원하는 새로운 테이블 만드는 개념.

- class에 따라 인원, 벌점평균 함께 볼 수 있는 테이블 만들기(조인)
- 실무에선 컬럼명 다르고 실제 값만 같은 경우도 있음. = 공통 키인 class를 가지고 병합하기.
- how: 조인의 방법. left, right, outer
- on: 공통 컬럼

3. concat()
- 덩어리 + 덩어리
- 공통 키 없이 테이블과 테이블을 그대로 붙이는 개념.


4. loc(), iloc()
- 데이터 접근 방법
- loc: 인덱스 기준
- iloc: 행 순서 기준



5. Series
- 빠른 연산 가능. 계산에 자주 활용.
- append(): 연결
- describe(): 통계치 요약
- drop_duplicates(): 중복 제거
- get_values(): 시리즈에서 조건에 맞는 값 구하기
- sort_values(): 값 기준 정렬
- value_counts(): 각 요소별 개수 파악
- to_frame(): 데이터프레임으로 바꾸기


6. 여러 컬럼 존재하는 데이터 가공 방법
- 통계청 데이터를 보면 컬럼이 날짜.

6-1. melt()
- 행열 전환은 아님.
- 깔끔하게 데이터 가공하는 문법.
- 인덱스, 기준 열, variable, value로 반환됨.
- 기준 열 제외 나머지 열에 해당하는 값이 기준 열에 해당하는 행으로 변환되는 것.
- 나머지 열은 variable 컬럼값, 그 열에 해당하는 값들은 value 컬럼 값으로 출력됨.
- id_vars: 기준 열 설정.
- vlaue_vars: 행으로 위치 변경할 변수 설정.
- var_name: 행으로 위치 변경한 변수에 해당하는 열의 이름 지정.
- value_name: 행으로 위치 변경한 변수의 값에 해당하는 열의 이름 지정.



6-2. np.transpose()
- 행열 전환하는 함수.



7. 컬럼에 여러 의미가 있는 데이터를 나누는 방법
- 컬럼을 나눠서 새로운 컬럼 만들기.
- 피처엔지니어링 개념 접근하여 파생변수 만들기.



7-1. str.split()
- 괄호 내 구분자 기준 문장을 분리.

7-2. str.get():
- 분리하여 만든 리스트의 인덱스를 이용해 값 반환.

7-3. 파생 변수 생성
- str 문자열 분리한 것으로 파생 변수 생성.

'학회 활동 > BDA 7기(데이터 분석 기초반)' 카테고리의 다른 글
| [BDA 데분기] 7주차 - 데이터 병합 (0) | 2024.01.31 |
|---|---|
| [BDA 데분기] 6주차 필수 과제 2 - 데이터 재구조화 (0) | 2024.01.31 |
| [BDA 데분기] 5주차 필수 과제 - 이상치 관련 분석 (0) | 2024.01.31 |
| [BDA 데분기] 5주차 - 이상치, Outlier (0) | 2024.01.31 |
| [BDA 데분기] 4주차 필수 과제 정리 - SimpleImputer, 시계열 데이터 (0) | 2024.01.31 |