安裝pandas 通過python pip安裝pandas pip install pandas pandas數據結構 pandas常用數據結構包括:Series和DataFrame Series Series是一種一維的數組型對象,包含一個值序列(與numpy中的數據類型相似),數據標簽(稱為索引 ...
安裝pandas
通過python pip安裝pandas
pip install pandas
pandas數據結構
pandas常用數據結構包括:Series和DataFrame
Series
Series是一種一維的數組型對象,包含一個值序列(與numpy中的數據類型相似),數據標簽(稱為索引(index))。
import pandas as pd
# 創建Series對象
obj=pd.Series([4,5,6,7])
print(obj)
0 4
1 5
2 6
3 7
dtype: int64
左邊為索引,右邊為值,預設索引從0到n-1(n為數據長度),可以通過values屬性和index屬性分別獲得Series對象的值和索引
print(obj.values)
array([4, 5, 6, 7], dtype=int64)
print(obj.index)
RangeIndex(start=0, stop=4, step=1)
# 自定義索引序列
obj2=pd.Series([4,5,6,7],index=['a','b','d','e'])
print(obj2,'\n')
# 輸出索引
print(obj2.index)
a 4
b 5
d 6
e 7
dtype: int64
Index(['a', 'b', 'd', 'e'], dtype='object')
Series對象可以使用標簽來進行索引
# 輸出索引為b的元素
print(obj2['b'])
# 輸出索引為a,d,e的元素
print('* '*10)
print(obj2[['a','d','e']])
5
* * * * * * * * * *
a 4
d 6
e 7
dtype: int64
Series對象也能使用布爾值進行過濾
# 輸出值大於5的元素
print(obj2[obj2>5])
d 6
e 7
dtype: int64
DataFrame
DataFrame表示矩陣的數據表,包含已排序的列集合,每一列可以是不同的的值類型(數值、字元串、布爾值等)
DataFrame既有行索引,也有列索引,可以被視為一個共用相同索引的Series的字典
# 創建DataFrame對象
data={'age':[18,18,18,20,20,20],'name':['a','b','c','aa','bb','cc'],'height':[180,180,180,182,182,182]}
frame=pd.DataFrame(data)
print(frame)
age name height
0 18 a 180
1 18 b 180
2 18 c 180
3 20 aa 182
4 20 bb 182
5 20 cc 182
DataFrame也可以用columns參數指定列索引順序排列
frame=pd.DataFrame(data,columns=['name','age','height'])
print(frame)
name age height
0 a 18 180
1 b 18 180
2 c 18 180
3 aa 20 182
4 bb 20 182
5 cc 20 182
如果傳的列參數不在字典中,將會出現缺失值
frame=pd.DataFrame(data,columns=['name','age','height','addition'])
print(frame)
print(frame.columns)
name age height addition
0 a 18 180 NaN
1 b 18 180 NaN
2 c 18 180 NaN
3 aa 20 182 NaN
4 bb 20 182 NaN
5 cc 20 182 NaN
Index(['name', 'age', 'height', 'addition'], dtype='object')
DataFrame的一列可以按字典型標記或屬性那樣索引為Series
frame=pd.DataFrame(data,columns=['name','age','height'])
print(frame['name'])
print(frame.age)
0 a
1 b
2 c
3 aa
4 bb
5 cc
Name: name, dtype: object
0 18
1 18
2 18
3 20
4 20
5 20
Name: age, dtype: int64
行也可以通過位置或特殊屬性loc進行索引
frame=pd.DataFrame(data,columns=['name','age','height'])
print(frame.loc[2])
name c
age 18
height 180
Name: 2, dtype: object