Education

[KT AIVLE/2024.02.26] 한기영 강사님의 [데이터 처리] 강의 정리: Numpy, Pandas 라이브러리 심화

마크 주쿼버그 2024. 2. 28. 00:27

 

목차

1. 서론

2. 실습 환경

3. 수업 내용 요약

4. 상세 내용

5. 느낀 점

 

 

 

1. 서론

판다스나 넘파이를 필요할 때 필요한 기능만 검색해서 사용했었는데, 이렇게 함수를 구체적으로 이해하며 학습하니 더 머리에 잘 들어오는 것 같다. 유사한 함수들끼리 비교하면서 서로 어떤 차이가 있는지 파악할 수도 있어서 좋다. 이번 주는 스터디 준비랑 병행하면서 조금 정신이 없었는데, 얼른 전부 정리해버리고 기존에 계획했던 자격증 공부도 시작할 수 있게 준비하자. 힘들지만 이겨내고 꾸준히 해야 관성이 생긴다, 화이팅!

(그러나 4일차도 여전히 코드 부분은 일단 생략하고 주말에 채워넣는 것으로 하겠다.)

 

 

2. 실습 환경

- 3일차와 동일하게 Jupyter 환경에서 numpy, pandas 라이브러리가 설치되어 있다는 전제 하에 진행되었다.

- 추가로 실습 코드 중 시각화 결과를 출력하기 위해 seaborn, matplotlib 라이브러리도 활용하였다.

 

 

3. 수업 내용 요약

1. Numpy, Pandas 두 라이브러리를 통해 데이터프레임에 포함된 값을 가공하는 방법을 배웠다.

2. 하나의 데이터프레임에 포함된 값에 대해 추가/삭제, 변경, 집계하는 방법을 알아보았다.

3. 두 개 이상의 데이터프레임을 결합하여 필요한 값을 생성 및 집계하는 방법을 익혔다.

 

 

4. 상세 내용

4-1. 데이터프레임 추가/삭제/변경

(추후 내용 추가)

 

 

4-2. 데이터프레임 결합

(추후 내용 추가)

 

 

4-3. 데이터프레임 집계 함수 활용

(추후 내용 추가)

 

 

4-4. 시계열 데이터(Time-Series Data)

- 행 데이터 간의 시간 흐름이 있는 순차 데이터(Sequential data) 중 한 종류이다.

- 시계열 데이터는 행 데이터 간의 "동일한 간격"의 시간 흐름이 존재하는 데이터이다.

- 시계열 데이터에서는 차분이라는 개념이 중요하니 기억해두도록 하자. 차분이란 변화량을 의미하며, 현재 시점에서 과거 시점을 뺀 값이다.

 

 

4-5. 날짜 자료형(datetime) 활용하기

- 시계열 데이터는 날짜 자료형을 주로 활용하는데, 날짜 자료형은 날짜 값을 그대로 사용하기 보다는 날짜 요소(년, 월, 일, 시각 등)를 추출해서 활용한다.

(코드 내용 추후 추가)

 

 

4-6. Business Understanding (가설 수립) 단계 이해하기

- 가설 수립 단계는 (1) 문제를 정의하고 (2) 분석 방향과 목표를 설정하고 (3) 가설을 설정하기 위해 수행하는 단계이다.

- 이 단계에서 수립된 가설을 다음 단계인 Data Understanding (데이터 분석) 단계에서 검증한다.

 

[가설의 종류]

( 내용 보충 필요 )

종류 의미
귀무 가설 기존 연구 결과로 이어져 내려오는 정설
대립 가설 기존의 입장을 넘어서기 위한 연구 가설

 

 

[데이터 분석 방법]

2차원 구조의 데이터 분석을 수행하는 방법은 크게 두 가지가 있다. 탐색적 데이터 분석(EDA, Exploratory Data Analsysis)과 확증적 데이터 분석(CDA, Confirmatory Data Analysis)이 바로 그것이다.

(내용 보충 필요)

종류 의미
탐색적 데이터 분석
(EDA, Exploratory Data Analsysis)
 
확증적 데이터 분석
(CDA, Confirmatory Data Analysis)
 

 

 

 

5. 느낀 점

이번 수업에서는 코드의 양이 많거나 난이도가 높진 않았다. 그러나 후반부에 나온 개념들이 내가 정확하게 이해하고 있는 개념이 아니라서 좀 더 심화 공부를 하려고 한다. 이 개념들을 이해하는 과정에서 내가 이전에 했던 데이터 분석 프로젝트들도 좀 더 정확하게 이해하고 정리할 수 있게 되었다. 아마 포트폴리오 정리하는 데에도 많은 도움이 될 것이라고 생각한다.

코드나 개념 정리가 덜 된 부분들이 많아 내용이 여기저기 비어 있는데, 노션에 기록해 둔 내용과 강사님이 주신 수업 자료들을 참고하여 꼭 미루지 말고 주말에 정리를 하도록 하자. 그럼 오늘도 끝!

 

안녀엉~