목차
Pandas란
•
NumPy를 기반으로 개발된 데이터 분석을 위한 쉽고 성능 좋은 오픈소스 python 라이브러리
•
많은 사람들에게 익숙한 행x열로 이뤄진 테이블 형태로 데이터를 다룰 수 있게 한다.
•
R과 비슷하게 데이터를 다룰 수 있게 되는데, R에 비해서는 속도가 훨씬 빠르다.
•
공식문서: http://pandas.pydata.org
Pandas의 data type
1.
Series
•
하나의 변수에 대한 데이터가 모인 1차원 데이터타입
•
index, value로 이루어짐
2.
DataFrame
•
여러 변수에 대한 series 여러 개가 모인 2차원 데이터타입, '표'라고 생각하면 된다.
•
index, column, value로 이루어짐
•
각 column은 series로 구성됨
•
DataFrame은 여러개의 Series가 column을 구성하는 모양으로 만들어짐
다룰 내용
Series와 DataFrame을 다루는 기초에 관해 두 편으로 나누어 정리해보자. 우선 여기서는 아래의 내용을 정리한다.
1.
Series
•
Series 만들기
•
Series 데이터 보기
•
indexing과 slicing
•
Series 데이터 연산 및 Series 다루기
2.
DataFrame
•
Create
•
Insert
•
append
•
concat
0. 설치와 import
•
설치: $ pip install pandas
•
import: numpy와 함께, alias를 pd로 import하는 것이 컨벤션
import numpy as np
import pandas as pd
Python
복사
1. Series
•
index와 value로 되어 있는 데이터 형태 (index는 각 샘플에 붙는 번호라고 생각)
•
series에는 하나의 데이터타입만 사용 가능 (하나의 column은 같은 데이터타입을 가짐)
•
한 변수에 대한 데이터 값들이라고 생각하면 된다.
1.1 Series 만들기
1.2 Series 데이터 보기
1.3 indexing과 slicing
1.4 Series 데이터 연산 및 Series 다루기
2. DataFrame
•
series(index, value), column으로 이루어진 데이터 타입
•
table 모양으로 구성 (row와 column이 있음)
2.1 create
•
pd.DataFrame(data)
2.2 insert
2.3 append
•
두 개의 DataFrame을 이어 붙일 수 있음
•
데이터를 붙이는 여러 방법(e.g. concat) 중 한 가지
2.4 concat
•
pd.concat([*DataFrame])
참고자료
•
패스트캠퍼스, ⟪데이터사이언스스쿨 8기⟫ 수업자료