from IPython.core.display import display, HTML

display(HTML("<style> .container{width:90% !important;}</style>"))

Pandas¶

데이터 분석을 위해 널리 사용되는 파이썬 라이브러리 패키지
수치 테이블 및 시계열을 조작하기 위한 데이터 구조 및 연산을 제공

import pandas as pd

1. 데이터 불러오기¶

csv: pd.read_csv('')
excel: pd.read_excel('')
encoding : 'utf-8', 'cp949', 'ISO-8859-1'

# csv 파일 불러오기
df = pd.read_csv('./01. CCTV_in_Seoul.csv', encoding='utf-8')
# head(), tail()
df.head()

2. 데이터 조작¶

# Column의 이름 반환
df.columns

Index(['기관명', '소계', '2013년도 이전', '2014년', '2015년', '2016년'], dtype='object')

# Column Rename
df.rename(columns={df.columns[0]:'구별'}, inplace=True)
df.head()

# DataFrame 값 확인
df.values

array([['강남구', 2780, 1292, 430, 584, 932],
       ['강동구', 773, 379, 99, 155, 377],
       ['강북구', 748, 369, 120, 138, 204],
       ['강서구', 884, 388, 258, 184, 81],
       ['관악구', 1496, 846, 260, 390, 613],
       ['광진구', 707, 573, 78, 53, 174],
       ['구로구', 1561, 1142, 173, 246, 323],
       ['금천구', 1015, 674, 51, 269, 354],
       ['노원구', 1265, 542, 57, 451, 516],
       ['도봉구', 485, 238, 159, 42, 386],
       ['동대문구', 1294, 1070, 23, 198, 579],
       ['동작구', 1091, 544, 341, 103, 314],
       ['마포구', 574, 314, 118, 169, 379],
       ['서대문구', 962, 844, 50, 68, 292],
       ['서초구', 1930, 1406, 157, 336, 398],
       ['성동구', 1062, 730, 91, 241, 265],
       ['성북구', 1464, 1009, 78, 360, 204],
       ['송파구', 618, 529, 21, 68, 463],
       ['양천구', 2034, 1843, 142, 30, 467],
       ['영등포구', 904, 495, 214, 195, 373],
       ['용산구', 1624, 1368, 218, 112, 398],
       ['은평구', 1873, 1138, 224, 278, 468],
       ['종로구', 1002, 464, 314, 211, 630],
       ['중구', 671, 413, 190, 72, 348],
       ['중랑구', 660, 509, 121, 177, 109]], dtype=object)

# 컬럼 Unique
df['구별'].unique()

array(['강남구', '강동구', '강북구', '강서구', '관악구', '광진구', '구로구', '금천구', '노원구',
       '도봉구', '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구',
       '양천구', '영등포구', '용산구', '은평구', '종로구', '중구', '중랑구'], dtype=object)

#sort_values(): by로 지정된 컬럼 기준 정렬, ascending 옵션으로 내림차순이나 오름차순 정렬
df = df.sort_values(by='2014년', ascending=False)
df.head()

# 행 Slicing
df[0:3]

Drop, Del¶

컬럼 삭제

# 컬럼 삭제 drop or del
# axis, 1: column, 0: row
df.drop('2013년도 이전', axis=1, inplace=True)
del df['소계']
df

인덱스 초기화¶

df = df.reset_index()
df

중복제거¶

duplicated() : 중복되는 행이 있을 때, True
drop_duplicates() : 중복된 행들이 제거되고 unique한 행들만 얻을 수 있음

df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
dtype: bool

df = df.drop_duplicates()
df

loc, iloc¶

# 특정 행 찾기
df.loc[df['2014년']==341]

# df.iloc[행, 열]
df.iloc[0:3, 0:2]

DataFrame 병합하기¶

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7']},
                   index=[4, 5, 6, 7])

Concat¶

옵션(명시 않을시 default)
- axis, 0: 세로로 합치기, 1: 가로로 합치기 default: 0
- join, outer: 합집합, inner: 교집합 default: outer
- ignore_index, False: 기존 index 유지, True: 기존 index 무시, 열 기준으로 병합

result = pd.concat([df1, df2], axis=0, join='outer')
result

Merge¶

옵션
- on, 명시된 컬럼을 기준으로 병합
- how: 특정 DataFrame을 기준으로 병합
  - left, right, outer, inner

left = pd.DataFrame({'key': ['K0', 'K4', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

pd.merge(left, right, how='left', on='key')

pd.merge(left, right, how='right', on='key')

# 교집합
pd.merge(left, right, how='inner', on='key')

#합집합 형태로 병합, 공통된 요소가 아닌 곳은 NaN 처리
df = pd.merge(left, right, how='outer', on='key')
df

NaN 데이터 처리¶

dropna : NaN 데이터가 있는 축(행, 열) 제외
fillna : NaN 데이터를 대신 할 값을 채움
isnull : NaN 값인지 True, False 반환
notnull : NaN이 아닌지 True, False 반환

df.isnull()

df.notnull()

df.dropna()

df.fillna(1)

통계관련¶

count: Nan 값을 제외한 값의 수를 반환
describe: 각 열에 대한 요약 통계
min, max: 최소, 최대
argmin, argmax: 최소, 최대 값을 가진 색인 위치 반환
idxmin, idxmanx: 최소 최대값을 갖고 있는 색인의 값 반환
sum: 합
cumsum: 누적합
cummin, cummax: 누적 최소, 최대 값
mean: 평균
median: 중위 값
mad: 평균값에서 절대 평균편차
std: 표본 정규분산
skew: 표본 비대칭도
kurt: 표본 첨도
diff: 1차 산술차

상관관계, 공분산¶

df.corr(): 모든 변수 간 상관관계를 계산 후 반환
df.col1.corr(df.col2): col1과 col2의 상관관계 계산 후 반환
df.cov(): 모든 변수 간 공분산을 계산 후 반환
df.corrwith(df.col): 하나의 변수와 나무지 변수 간의 상관관계 계산

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

J_Remind

01. Pandas 기초

Pandas¶

1. 데이터 불러오기¶

2. 데이터 조작¶

Drop, Del¶

인덱스 초기화¶

중복제거¶

loc, iloc¶

DataFrame 병합하기¶

Concat¶

Merge¶

NaN 데이터 처리¶

통계관련¶

상관관계, 공분산¶

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

	기관명	소계	2013년도 이전	2014년	2015년	2016년
0	강남구	2780	1292	430	584	932
1	강동구	773	379	99	155	377
2	강북구	748	369	120	138	204
3	강서구	884	388	258	184	81
4	관악구	1496	846	260	390	613

	구별	2014년	2015년	2016년
0	강남구	430	584	932
11	동작구	341	103	314
22	종로구	314	211	630
4	관악구	260	390	613
3	강서구	258	184	81
21	은평구	224	278	468
20	용산구	218	112	398
19	영등포구	214	195	373
23	중구	190	72	348
6	구로구	173	246	323
9	도봉구	159	42	386
14	서초구	157	336	398
18	양천구	142	30	467
24	중랑구	121	177	109
2	강북구	120	138	204
12	마포구	118	169	379
1	강동구	99	155	377
15	성동구	91	241	265
16	성북구	78	360	204
5	광진구	78	53	174
8	노원구	57	451	516
7	금천구	51	269	354
13	서대문구	50	68	292
10	동대문구	23	198	579
17	송파구	21	68	463

	key	A	B	C	D
0	False	False	False	False	False
1	False	False	False	True	True
2	False	False	False	False	False
3	False	False	False	False	False
4	False	True	True	False	False