數據分析入門——Pandas類庫基礎知識

使用python進行數據分析時，經常會用Pandas類庫處理數據，將數據轉換成我們需要的格式。Pandas中的有兩個數據結構和處理數據相關，分別是Series和DataFrame。 Series Series是一種類似於一維數組的對象，它有兩個屬性，value和index索引。可以像數組那樣通過索引 ...

使用python進行數據分析時，經常會用Pandas類庫處理數據，將數據轉換成我們需要的格式。Pandas中的有兩個數據結構和處理數據相關，分別是Series和DataFrame。

Series

Series是一種類似於一維數組的對象，它有兩個屬性，value和index索引。可以像數組那樣通過索引訪問對應的值，它和數組有點類似也是python中的dict有點類似，數組中的索引只能是數字，而Series的索引既可以是數字類型也可以是字元類型。

創建Series對象
最簡單的方式是通過list序列就可以創建Series對象

s1 = Series(['a','b','c','d'])
s1
Out[16]: 
0    a
1    b
2    c
3    d

沒有指定索引時，會預設生成一個從0開始到N-1的整型索引。

Series會根據傳入的list序列中元素的類型判斷Series對象的數據類型，如果全部都是整型，則創建的Series對象是整型，如果有一個元素是浮點型，則創建的Series對象是浮點型，如果有一個是字元串，則創建的Series對象是object類型。

s1 = Series([1,2,3,4])
s1
Out[23]: 
0    1
1    2
2    3
3    4
dtype: int64
s2 = Series([1,2,3,4.0])
s2
Out[25]: 
0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
s3 = Series([1,2,3,'4'])
s3
Out[27]: 
0    1
1    2
2    3
3    4
dtype: object

除了通過list序列創建Series對象外，還可以通過dict創建Series對象。

s1 = Series({'a':1,'b':2,'c':3,'d':4})
s1
Out[37]: 
a    1
b    2
c    3
d    4
dtype: int64

通過dict詞典創建Series對象時，會將詞典的鍵初始化Series的Index，而dict的value初始化Series的value。

Series還支持傳入一個dict詞典和一個list序列創建Series對象：

dict1 = {'a':1,'b':2,'c':3,'d':4}
index1 = ['a','b','e']
s1 = Series(dict1,index=index1)
s1
Out[51]: 
a    1.0
b    2.0
e    NaN
dtype: float64

上面的代碼中，指定了創建的Series對象s1的索引是index1，即'a','b'和'e'。s1的值是dict1中和index1索引相匹配的值，如果不匹配，則顯示NaN。例如索引'e'和dict1中的鍵沒有相匹配的，則索引'e'的值為NaN。索引'a'和索引'b'都匹配得上，因此值為1和2。

Series通過索引訪問值：

s1 = Series({'a':1,'b':2,'c':3,'d':4})
s1
Out[39]: 
a    1
b    2
c    3
d    4
dtype: int64
s1['b']
Out[40]: 2

上面代碼中通過s1['b']就可以訪問到索引b對應的值。

Series支持邏輯和數學運算：

s1 = Series([2,5,-10,200])
s1 * 2
Out[53]: 
0      4
1     10
2    -20
3    400
dtype: int64
s1[s1>0]
Out[54]: 
0      2
1      5
3    200
dtype: int64

對Series變數做數學運算，會作用於Series對象中的每一個元素。

s1 = Series([2,5,-10,200])
s1[s1>0]
Out[7]: 
0      2
1      5
3    200
dtype: int64

對Series做邏輯運算時，會將Series中的值替換為bool類型的對象。

s1 = Series([2,5,-10,200])
s1
Out[10]: 
0      2
1      5
2    -10
3    200
dtype: int64
s1 > 0
Out[11]: 
0     True
1     True
2    False
3     True
dtype: bool

通過series的邏輯運算，可以過濾掉一些不符合條件的數據，例如過濾掉上面例子中小於0的元素：

s1 = Series([2,5,-10,200])
s1[s1 >0]
Out[23]: 
0      2
1      5
3    200
dtype: int64

Series對象和索引都有一個name屬性，通過下麵的方法可以設置Series對象和索引的name值：

fruit = {0:'apple',1:'orange',2:'banana'} 
fruitSeries = Series(fruit)
fruitSeries.name='Fruit'
fruitSeries
Out[27]: 
0     apple
1    orange
2    banana
Name: Fruit, dtype: object
fruitSeries.index.name='Fruit Index'
fruitSeries
Out[29]: 
Fruit Index
0     apple
1    orange
2    banana
Name: Fruit, dtype: object

可以通過index複製方式直接修改Series對象的index：

fruitSeries.index=['a','b','c']
fruitSeries
Out[31]: 
a     apple
b    orange
c    banana
Name: Fruit, dtype: object

DataFrame

DataFrame是表格型的數據結構，和關係型資料庫中的表很像，都是行和列組成，有列名，索引等屬性。

我們可以認為DataFrame中的列其實就是上面提到的Series，有多少列就有多少個Series對象，它們共用同一個索引index。

通過dict字典創建DataFrame對象：

data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data)
frame
Out[12]: 
    fruit  year   sale
0   Apple  2010  15000
1   Apple  2011  17000
2  Orange  2012  36000
3  Orange  2011  24000
4  Banana  2012  29000

使用上面的方式創建DataFrame對象時，字典中每個元素的value值必須是列表，並且長度必須一致，如果長度不一致會報錯。例如key為fruit、year、sale對應的列表長度必須一致。

創建DataFrame對象和會創建Series對象一樣自動加上索引。

通過傳入columns參數指定列的順序：

data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data,columns=['sale','fruit','year','price'])
frame
Out[25]: 
    sale   fruit  year price
0  15000   Apple  2010   NaN
1  17000   Apple  2011   NaN
2  36000  Orange  2012   NaN
3  24000  Orange  2011   NaN
4  29000  Banana  2012   NaN

如果傳入的列在數據中找不到，就會產生NaN值。

DataFrame的index也是可以修改的，同樣傳入一個列表：

frame = DataFrame(data,columns=['sale','fruit','year'],index=[4,3,2,1,0])
frame
Out[22]: 
    sale   fruit  year
4  15000   Apple  2010
3  17000   Apple  2011
2  36000  Orange  2012
1  24000  Orange  2011
0  29000  Banana  2012

通過傳入的[4,3,2,1,0]就將原來的index從0,1,2,3,4改變為4,3,2,1,0。

通過DataFrame對象獲取Series對象：

frame['year']
Out[26]: 
0    2010
1    2011
2    2012
3    2011
4    2012
Name: year, dtype: int64
frame['fruit']
Out[27]: 
0     Apple
1     Apple
2    Orange
3    Orange
4    Banana
Name: fruit, dtype: object

frame['fruit']和frame.fruit都可以獲取列，並且返回的是Series對象。

DataFrame賦值，就是對列賦值，首先獲取DataFrame對象中某列的Series對象，然後通過賦值的方式就可以修改列的值：

data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data,columns=['sale','fruit','year','price'])
frame
Out[24]: 
    sale   fruit  year price
0  15000   Apple  2010   NaN
1  17000   Apple  2011   NaN
2  36000  Orange  2012   NaN
3  24000  Orange  2011   NaN
4  29000  Banana  2012   NaN
frame['price'] = 20
frame
Out[26]: 
    sale   fruit  year  price
0  15000   Apple  2010     20
1  17000   Apple  2011     20
2  36000  Orange  2012     20
3  24000  Orange  2011     20
4  29000  Banana  2012     20
frame.price = 40
frame
Out[28]: 
    sale   fruit  year  price
0  15000   Apple  2010     40
1  17000   Apple  2011     40
2  36000  Orange  2012     40
3  24000  Orange  2011     40
4  29000  Banana  2012     40
frame.price=np.arange(5)
frame
Out[30]: 
    sale   fruit  year  price
0  15000   Apple  2010      0
1  17000   Apple  2011      1
2  36000  Orange  2012      2
3  24000  Orange  2011      3
4  29000  Banana  2012      4

通過frame['price']或者frame.price獲取price列，然後通過frame['price']=20或frame.price=20就可以將price列都賦值為20。

也可以通過numpy的arange方法進行賦值。如上面的代碼所示。

可以通過Series給DataFrame對象賦值：

data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data,columns=['sale','fruit','year','price'])
frame
Out[6]: 
    sale   fruit  year price
0  15000   Apple  2010   NaN
1  17000   Apple  2011   NaN
2  36000  Orange  2012   NaN
3  24000  Orange  2011   NaN
4  29000  Banana  2012   NaN
priceSeries = Series([3.4,4.2,2.4],index = [1,2,4])
frame.price = priceSeries
frame
Out[9]: 
    sale   fruit  year  price
0  15000   Apple  2010    NaN
1  17000   Apple  2011    3.4
2  36000  Orange  2012    4.2
3  24000  Orange  2011    NaN
4  29000  Banana  2012    2.4

這種賦值方式，DataFrame的索引會和Series的索引自動匹配，在對應的索引位置賦值，匹配不上的位置將填上缺失值NaN。

創建的Series對象如果不指定索引時的賦值結果：

priceSeries = Series([3.4,4.2,2.4])
frame.price = priceSeries
frame
Out[12]: 
    sale   fruit  year  price
0  15000   Apple  2010    3.4
1  17000   Apple  2011    4.2
2  36000  Orange  2012    2.4
3  24000  Orange  2011    NaN
4  29000  Banana  2012    NaN

DataFrame還支持通過列表或者數組的方式給列賦值，但是必須保證兩者的長度一致：

priceList=[3.4,2.4,4.6,3.8,7.3]
frame.price=priceList
frame
Out[15]: 
    sale   fruit  year  price
0  15000   Apple  2010    3.4
1  17000   Apple  2011    2.4
2  36000  Orange  2012    4.6
3  24000  Orange  2011    3.8
4  29000  Banana  2012    7.3
priceList=[3.4,2.4,4.6,3.8,7.3]
frame.price=priceList

賦值的列如果不存在時，相當於創建出一個新列：

frame['total'] = 30000
frame
Out[45]: 
    sale   fruit  year  price  total
0  15000   Apple  2010    3.4  30000
1  17000   Apple  2011    2.4  30000
2  36000  Orange  2012    4.6  30000
3  24000  Orange  2011    3.8  30000
4  29000  Banana  2012    7.3  30000

上面的例子通過給不存在的列賦值，新增了新列total。必須使用frame['total']的方式賦值，不建議使用frame.total，使用frame.的方式給不存在的列賦值時，這個列會隱藏起來，直接輸出DataFrame對象是不會看到這個total這個列的，但是它又真實的存在，下麵的代碼是分別使用frame['total']和frame.total給frame對象的total列賦值，total列開始是不存在的：

frame
Out[60]: 
    sale   fruit  year  price
0  15000   Apple  2010    3.4
1  17000   Apple  2011    2.4
2  36000  Orange  2012    4.6
3  24000  Orange  2011    3.8
4  29000  Banana  2012    7.3
frame.total = 20
frame
Out[62]: 
    sale   fruit  year  price
0  15000   Apple  2010    3.4
1  17000   Apple  2011    2.4
2  36000  Orange  2012    4.6
3  24000  Orange  2011    3.8
4  29000  Banana  2012    7.3
frame['total'] = 20
frame
Out[64]: 
    sale   fruit  year  price  total
0  15000   Apple  2010    3.4     20
1  17000   Apple  2011    2.4     20
2  36000  Orange  2012    4.6     20
3  24000  Orange  2011    3.8     20
4  29000  Banana  2012    7.3     20

使用frame.total方式賦值時，是看不到total這一列的，而用frame['total']方式賦值時，則可以看到total這一列。