데이터 분석 파트는 총 4~5문항으로 구성되며, 전체 배점은 데이터 탐색 파트와 동일하게 30점이다.
상세 항목은 아래와 같이 구성되어 있다.
1. 데이터 시각화 (상관분석 등)
2. 데이터 전처리 (결측치 처리, 라벨 인코딩/원핫 인코딩)
3. xy 데이터 분리
4. 데이터 정규분포화
5. 표준화
이번 글에서는 이전 글에 이어 3~5를 중점적으로 정리하였다.
3. xy 데이터 분리
(1) xy 데이터 분리
target = 'col1'
x = data.drop(target, axis=1)
y = data.loc[:, target]
(2) train / valid 데이터 분리 (80:20 비율, random_state=42)
from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(x, y, test_size=0.2, random_state=42)
4. 데이터의 정규분포화(=정규화, Normalization)
(1) RobustScaler: 평균과 분산 값 대신 중앙값과 사분위값을 활용하여 정규화 진행
from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_valid)
5. 표준화 (Regularizaiton)
(추후 채워 넣을 예정)
'Certifications > AICE' 카테고리의 다른 글
5. AI 모델링 및 모델 평가 (0) | 2024.06.21 |
---|---|
3. 샘플 문제로 함께 알아보는 [데이터 분석] 파트 내용 정리하기 (1) 시각화, 전처리 (0) | 2024.06.20 |
2. AICE [데이터 탐색] 파트 내용 정리하기 (0) | 2024.06.20 |
1. AICE 시험 소개 (0) | 2024.06.20 |