Certifications/AICE

3. 샘플 문제로 함께 알아보는 [데이터 분석] 파트 내용 정리하기 (1) 시각화, 전처리

마크 주쿼버그 2024. 6. 20. 23:19

데이터 분석 파트는 총 4~5문항으로 구성되며, 전체 배점은 데이터 탐색 파트와 동일하게 30점이다.

상세 항목은 아래와 같이 구성되어 있다.

1. 데이터 시각화 (상관분석 등)

2. 데이터 전처리 (결측치 처리, 라벨 인코딩/원핫 인코딩)

3. xy 데이터 분리

4. 데이터 정규분포화

5. 표준화

 

이번 글에서는 1, 2를 중점적으로 정리하였다.

 

1. 데이터 시각화

시각화 방법은 다양하므로, 샘플 문제에서 등장한 메소드를 중심으로 살펴보겠다.

 

(1) 데이터 개수의 분포를 보여주는 countplot 그래프

import seaborn as sns
sns.countplot(x='col1', data=df)

 

 

(2) 두 변수의 분포와 관계를 함께 나타내는 jointplot 그래프

import seaborn as sns
sns.jointplot(x='col1', y='col2', data=df)

 

 

 

 

 

 

2-1. 데이터 전처리: 이상치 및 결측치 처리

df.isna().sum()                 # 결측치가 있는 열(Column) 확인
df_na = df_temp.dropna(axis=0)  # 결측치가 있는 행(Row) 제거

df.drop('Column', axis=1)          # 특정 열(Column) 제거
df.drop(['Col1', 'Col2'], axis=1)  # 여러 개의 특정 열(Column) 제거

 

 

2-2. 데이터 전처리: 원핫 인코딩/ 라벨 인코딩

(1) 원핫 인코딩

- 특정 열을 원핫인코딩 하는 방법

pd.get_dummies(df['col1'])

 

 

- object 타입의 전체 컬럼을 원핫인코딩 하는 방법

cols = df_del.select_dtypes(include='object').columns
df_preset = pd.get_dummies(df_del, columns=cols)