概要

pandasはテーブルデータの分析をする上で非常に便利なモジュール。テーブルデータの可視化もjupyter-notebookと合わせて非常に見やすくなる。自分がよく使うものを並べていきます。

環境

macOS Mojave 10.14.5

pythonのデフォルトモジュールではないのでインストールが必要。pipかcondaでインストールする。

import pandas as pd
df = pd.read_csv('data.csv', header=None)
df.head()

df['A'].unique()
==>
['a', 'aa', 'aaa']

df['A'].nunique()
==>
3

df['A'].value_counts()
==>
a  1
aa  1
aaa 2

df.loc[['01', '03'], ['A', 'B']]
df.loc[:, ['A', 'B']]

df.iloc[[0, 1], [3, 4]]
df.iloc[[0, 1], :]

df.ix[['01', '03'], [0, 1]]

.strを使う

df[df['A'].str.contains('aaa') == True] #文字列にaaaを含む
df[df['A'].str.len() == 3] #文字列が３つ

np.where(df['A'] == 'a', True, False)

df = df.sort_values('A')

df.sort_values(['A', 'B'], ascending=[False, True], na_position='first', inplace=True )

df = df.sort_index()

昇順降順、元のオブジェクトの変更は要素のときと同じ。列名でソートする時はaxis=1とするとできる。

get_dummiesを使う

df_dummies = pd.get_dummies(df['A'])