ACAIT

[BDA 데분기] 6주차 - Series, DataFrame 관련 함수 본문

학회 활동/BDA 7기(데이터 분석 기초반)

[BDA 데분기] 6주차 - Series, DataFrame 관련 함수

831x99 2024. 1. 31. 21:01

Series와 DataFrame 전처리와 관련된 함수들을 정리해 보겠습니다.

 

1. groupby()


 

2. merge()

  • 데이터끼리 합치는 경우.
  • 실무 DA에서는 sql이면 충분, DS 데이터셋 정리 시 활용.
  • 테이블 병합하고 정리해서 우리가 원하는 테스트셋 만드는 경우.
  • pandas 많이 사용.
  • 데이터간 병합으로 원하는 새로운 테이블 만드는 개념.

  • class에 따라 인원, 벌점평균 함께 볼 수 있는 테이블 만들기(조인)
  • 실무에선 컬럼명 다르고 실제 값만 같은 경우도 있음. = 공통 키인 class를 가지고 병합하기.
  • how: 조인의 방법. left, right, outer
  • on: 공통 컬럼


 

3. concat()

  • 덩어리 + 덩어리
  • 공통 키 없이 테이블과 테이블을 그대로 붙이는 개념.


 

4. loc(), iloc()

  • 데이터 접근 방법
  • loc: 인덱스 기준
  • iloc: 행 순서 기준


 

5. Series

  • 빠른 연산 가능. 계산에 자주 활용.
  • append(): 연결
  • describe(): 통계치 요약
  • drop_duplicates(): 중복 제거
  • get_values(): 시리즈에서 조건에 맞는 값 구하기
  • sort_values(): 값 기준 정렬
  • value_counts(): 각 요소별 개수 파악
  • to_frame(): 데이터프레임으로 바꾸기


 

6. 여러 컬럼 존재하는 데이터 가공 방법

  • 통계청 데이터를 보면 컬럼이 날짜.

 

6-1. melt()

  • 행열 전환은 아님.
  • 깔끔하게 데이터 가공하는 문법.
  • 인덱스, 기준 열, variable, value로 반환됨.
  • 기준 열 제외 나머지 열에 해당하는 값이 기준 열에 해당하는 행으로 변환되는 것.
  • 나머지 열은 variable 컬럼값, 그 열에 해당하는 값들은 value 컬럼 값으로 출력됨.

  • id_vars: 기준 열 설정.
  • vlaue_vars: 행으로 위치 변경할 변수 설정.
  • var_name: 행으로 위치 변경한 변수에 해당하는 열의 이름 지정.
  • value_name: 행으로 위치 변경한 변수의 값에 해당하는 열의 이름 지정.


 

6-2. np.transpose()

  • 행열 전환하는 함수.



 

7. 컬럼에 여러 의미가 있는 데이터를 나누는 방법

  • 컬럼을 나눠서 새로운 컬럼 만들기.
  • 피처엔지니어링 개념 접근하여 파생변수 만들기.


 

7-1. str.split()

  • 괄호 내 구분자 기준 문장을 분리.

 


 

7-2. str.get():

  • 분리하여 만든 리스트의 인덱스를 이용해 값 반환.


 

7-3. 파생 변수 생성

  • str 문자열 분리한 것으로 파생 변수 생성.