Certifications/AICE

2. AICE [데이터 탐색] 파트 내용 정리하기

마크 주쿼버그 2024. 6. 20. 22:45

데이터 탐색 파트는 총 5~6문항으로 구성되며, 전체 배점은 30점이다.

상세 항목은 아래와 같이 구성되어 있다.

1. 필요한 라이브러리 설치

2. Tabular 데이터 가져오기

3. 데이터의 구성 확인

 

AICE에서 제공하는 샘플 문제를 기반으로 하여 데이터 탐색 파트 풀이 방법을 구체적으로 알아보자.

 

 

1. 필요한 라이브러리 설치

pandas, numpy, sklearn, matplotlib, seaborn 등 필요한 라이브러리를 import 하고 별칭을 할당하는 문제가 등장한다.

이 때는 아래와 같이 문제에서 요구하는 라이브러리를 호출하고 별칭을 설정해주면 된다.

import pandas as pd             # pandas
import numpy as np              # numpy
import sklearn as sk            # scikit-learn
import matplotlib.pyplot as plt # matplotlib
import seaborn as sns           # seaborn

 

 

 

2. Tabular 데이터 가져오기

pandas 라이브러리를 이용하여 json 혹은 csv 형식으로 되어 있는 파일을 가져온다.

불러온 코드를 merge 함수를 이용하여 합칠 수 있으며, 이러한 경우 함수명과 파라미터명을 제시해주기도 한다.

 

df_a = pd.read_json('file1.json')
df_B = pd.read_csv('file2.csv')
df = pd.merge(df_a, df_b, on='col1', how='inner')

 

 

3. 데이터의 구성 확인

데이터의 구성을 살펴보는 방법은 pandas 라이브러리의 메소드를 활용하는 방법이 있다.

아래와 같은 메소드를 사용할 수 있다.

1. 데이터프레임의 상위 데이터를 살펴보는 head()

2. 데이터프레임의 하위 데이터를 살펴보는 tail()

3. 데이터프레임의 값 중 임의로 추려서 살펴보는 sample()