Certifications/AICE

4. 샘플 문제로 함께 알아보는 [데이터 분석] 파트 내용 정리하기 (2) xy데이터 분리, 데이터 정규분포화, 표준

마크 주쿼버그 2024. 6. 20. 23:38

데이터 분석 파트는 총 4~5문항으로 구성되며, 전체 배점은 데이터 탐색 파트와 동일하게 30점이다.

상세 항목은 아래와 같이 구성되어 있다.

1. 데이터 시각화 (상관분석 등)

2. 데이터 전처리 (결측치 처리, 라벨 인코딩/원핫 인코딩)

3. xy 데이터 분리

4. 데이터 정규분포화

5. 표준화

 

이번 글에서는 이전 글에 이어 3~5를 중점적으로 정리하였다.

 

 

3. xy 데이터 분리

 

(1) xy 데이터 분리

target = 'col1'
x = data.drop(target, axis=1)
y = data.loc[:, target]

 

(2) train / valid 데이터 분리 (80:20 비율, random_state=42)

from sklearn.model_selection import train_test_split

X_train, X_valid, y_train, y_valid = train_test_split(x, y, test_size=0.2, random_state=42)

 

 

4. 데이터의 정규분포화(=정규화, Normalization)

(1) RobustScaler: 평균과 분산 값 대신 중앙값과 사분위값을 활용하여 정규화 진행

from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_valid)

 

 

5. 표준화 (Regularizaiton)

(추후 채워 넣을 예정)