使用python進行數據分析時,經常會用Pandas類庫處理數據,將數據轉換成我們需要的格式。Pandas中的有兩個數據結構和處理數據相關,分別是Series和DataFrame。 Series Series是一種類似於一維數組的對象,它有兩個屬性,value和index索引。可以像數組那樣通過索引 ...
使用python進行數據分析時,經常會用Pandas類庫處理數據,將數據轉換成我們需要的格式。Pandas中的有兩個數據結構和處理數據相關,分別是Series和DataFrame。
Series
Series是一種類似於一維數組的對象,它有兩個屬性,value和index索引。可以像數組那樣通過索引訪問對應的值,它和數組有點類似也是python中的dict有點類似,數組中的索引只能是數字,而Series的索引既可以是數字類型也可以是字元類型。
創建Series對象
最簡單的方式是通過list序列就可以創建Series對象
s1 = Series(['a','b','c','d'])
s1
Out[16]:
0 a
1 b
2 c
3 d
沒有指定索引時,會預設生成一個從0開始到N-1的整型索引。
Series會根據傳入的list序列中元素的類型判斷Series對象的數據類型,如果全部都是整型,則創建的Series對象是整型,如果有一個元素是浮點型,則創建的Series對象是浮點型,如果有一個是字元串,則創建的Series對象是object類型。
s1 = Series([1,2,3,4])
s1
Out[23]:
0 1
1 2
2 3
3 4
dtype: int64
s2 = Series([1,2,3,4.0])
s2
Out[25]:
0 1.0
1 2.0
2 3.0
3 4.0
dtype: float64
s3 = Series([1,2,3,'4'])
s3
Out[27]:
0 1
1 2
2 3
3 4
dtype: object
除了通過list序列創建Series對象外,還可以通過dict創建Series對象。
s1 = Series({'a':1,'b':2,'c':3,'d':4})
s1
Out[37]:
a 1
b 2
c 3
d 4
dtype: int64
通過dict詞典創建Series對象時,會將詞典的鍵初始化Series的Index,而dict的value初始化Series的value。
Series還支持傳入一個dict詞典和一個list序列創建Series對象:
dict1 = {'a':1,'b':2,'c':3,'d':4}
index1 = ['a','b','e']
s1 = Series(dict1,index=index1)
s1
Out[51]:
a 1.0
b 2.0
e NaN
dtype: float64
上面的代碼中,指定了創建的Series對象s1的索引是index1,即'a','b'和'e'。s1的值是dict1中和index1索引相匹配的值,如果不匹配,則顯示NaN。例如索引'e'和dict1中的鍵沒有相匹配的,則索引'e'的值為NaN。索引'a'和索引'b'都匹配得上,因此值為1和2。
Series通過索引訪問值:
s1 = Series({'a':1,'b':2,'c':3,'d':4})
s1
Out[39]:
a 1
b 2
c 3
d 4
dtype: int64
s1['b']
Out[40]: 2
上面代碼中通過s1['b']就可以訪問到索引b對應的值。
Series支持邏輯和數學運算:
s1 = Series([2,5,-10,200])
s1 * 2
Out[53]:
0 4
1 10
2 -20
3 400
dtype: int64
s1[s1>0]
Out[54]:
0 2
1 5
3 200
dtype: int64
對Series變數做數學運算,會作用於Series對象中的每一個元素。
s1 = Series([2,5,-10,200])
s1[s1>0]
Out[7]:
0 2
1 5
3 200
dtype: int64
對Series做邏輯運算時,會將Series中的值替換為bool類型的對象。
s1 = Series([2,5,-10,200])
s1
Out[10]:
0 2
1 5
2 -10
3 200
dtype: int64
s1 > 0
Out[11]:
0 True
1 True
2 False
3 True
dtype: bool
通過series的邏輯運算,可以過濾掉一些不符合條件的數據,例如過濾掉上面例子中小於0的元素:
s1 = Series([2,5,-10,200])
s1[s1 >0]
Out[23]:
0 2
1 5
3 200
dtype: int64
Series對象和索引都有一個name屬性,通過下麵的方法可以設置Series對象和索引的name值:
fruit = {0:'apple',1:'orange',2:'banana'}
fruitSeries = Series(fruit)
fruitSeries.name='Fruit'
fruitSeries
Out[27]:
0 apple
1 orange
2 banana
Name: Fruit, dtype: object
fruitSeries.index.name='Fruit Index'
fruitSeries
Out[29]:
Fruit Index
0 apple
1 orange
2 banana
Name: Fruit, dtype: object
可以通過index複製方式直接修改Series對象的index:
fruitSeries.index=['a','b','c']
fruitSeries
Out[31]:
a apple
b orange
c banana
Name: Fruit, dtype: object
DataFrame
DataFrame是表格型的數據結構,和關係型資料庫中的表很像,都是行和列組成,有列名,索引等屬性。
我們可以認為DataFrame中的列其實就是上面提到的Series,有多少列就有多少個Series對象,它們共用同一個索引index。
通過dict字典創建DataFrame對象:
data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data)
frame
Out[12]:
fruit year sale
0 Apple 2010 15000
1 Apple 2011 17000
2 Orange 2012 36000
3 Orange 2011 24000
4 Banana 2012 29000
使用上面的方式創建DataFrame對象時,字典中每個元素的value值必須是列表,並且長度必須一致,如果長度不一致會報錯。例如key為fruit、year、sale對應的列表長度必須一致。
創建DataFrame對象和會創建Series對象一樣自動加上索引。
通過傳入columns參數指定列的順序:
data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data,columns=['sale','fruit','year','price'])
frame
Out[25]:
sale fruit year price
0 15000 Apple 2010 NaN
1 17000 Apple 2011 NaN
2 36000 Orange 2012 NaN
3 24000 Orange 2011 NaN
4 29000 Banana 2012 NaN
如果傳入的列在數據中找不到,就會產生NaN值。
DataFrame的index也是可以修改的,同樣傳入一個列表:
frame = DataFrame(data,columns=['sale','fruit','year'],index=[4,3,2,1,0])
frame
Out[22]:
sale fruit year
4 15000 Apple 2010
3 17000 Apple 2011
2 36000 Orange 2012
1 24000 Orange 2011
0 29000 Banana 2012
通過傳入的[4,3,2,1,0]就將原來的index從0,1,2,3,4改變為4,3,2,1,0。
通過DataFrame對象獲取Series對象:
frame['year']
Out[26]:
0 2010
1 2011
2 2012
3 2011
4 2012
Name: year, dtype: int64
frame['fruit']
Out[27]:
0 Apple
1 Apple
2 Orange
3 Orange
4 Banana
Name: fruit, dtype: object
frame['fruit']和frame.fruit都可以獲取列,並且返回的是Series對象。
DataFrame賦值,就是對列賦值,首先獲取DataFrame對象中某列的Series對象,然後通過賦值的方式就可以修改列的值:
data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data,columns=['sale','fruit','year','price'])
frame
Out[24]:
sale fruit year price
0 15000 Apple 2010 NaN
1 17000 Apple 2011 NaN
2 36000 Orange 2012 NaN
3 24000 Orange 2011 NaN
4 29000 Banana 2012 NaN
frame['price'] = 20
frame
Out[26]:
sale fruit year price
0 15000 Apple 2010 20
1 17000 Apple 2011 20
2 36000 Orange 2012 20
3 24000 Orange 2011 20
4 29000 Banana 2012 20
frame.price = 40
frame
Out[28]:
sale fruit year price
0 15000 Apple 2010 40
1 17000 Apple 2011 40
2 36000 Orange 2012 40
3 24000 Orange 2011 40
4 29000 Banana 2012 40
frame.price=np.arange(5)
frame
Out[30]:
sale fruit year price
0 15000 Apple 2010 0
1 17000 Apple 2011 1
2 36000 Orange 2012 2
3 24000 Orange 2011 3
4 29000 Banana 2012 4
通過frame['price']或者frame.price獲取price列,然後通過frame['price']=20或frame.price=20就可以將price列都賦值為20。
也可以通過numpy的arange方法進行賦值。如上面的代碼所示。
可以通過Series給DataFrame對象賦值:
data = {'fruit':['Apple','Apple','Orange','Orange','Banana'],
'year':[2010,2011,2012,2011,2012],
'sale':[15000,17000,36000,24000,29000]}
frame = DataFrame(data,columns=['sale','fruit','year','price'])
frame
Out[6]:
sale fruit year price
0 15000 Apple 2010 NaN
1 17000 Apple 2011 NaN
2 36000 Orange 2012 NaN
3 24000 Orange 2011 NaN
4 29000 Banana 2012 NaN
priceSeries = Series([3.4,4.2,2.4],index = [1,2,4])
frame.price = priceSeries
frame
Out[9]:
sale fruit year price
0 15000 Apple 2010 NaN
1 17000 Apple 2011 3.4
2 36000 Orange 2012 4.2
3 24000 Orange 2011 NaN
4 29000 Banana 2012 2.4
這種賦值方式,DataFrame的索引會和Series的索引自動匹配,在對應的索引位置賦值,匹配不上的位置將填上缺失值NaN。
創建的Series對象如果不指定索引時的賦值結果:
priceSeries = Series([3.4,4.2,2.4])
frame.price = priceSeries
frame
Out[12]:
sale fruit year price
0 15000 Apple 2010 3.4
1 17000 Apple 2011 4.2
2 36000 Orange 2012 2.4
3 24000 Orange 2011 NaN
4 29000 Banana 2012 NaN
DataFrame還支持通過列表或者數組的方式給列賦值,但是必須保證兩者的長度一致:
priceList=[3.4,2.4,4.6,3.8,7.3]
frame.price=priceList
frame
Out[15]:
sale fruit year price
0 15000 Apple 2010 3.4
1 17000 Apple 2011 2.4
2 36000 Orange 2012 4.6
3 24000 Orange 2011 3.8
4 29000 Banana 2012 7.3
priceList=[3.4,2.4,4.6,3.8,7.3]
frame.price=priceList
賦值的列如果不存在時,相當於創建出一個新列:
frame['total'] = 30000
frame
Out[45]:
sale fruit year price total
0 15000 Apple 2010 3.4 30000
1 17000 Apple 2011 2.4 30000
2 36000 Orange 2012 4.6 30000
3 24000 Orange 2011 3.8 30000
4 29000 Banana 2012 7.3 30000
上面的例子通過給不存在的列賦值,新增了新列total。必須使用frame['total']的方式賦值,不建議使用frame.total,使用frame.的方式給不存在的列賦值時,這個列會隱藏起來,直接輸出DataFrame對象是不會看到這個total這個列的,但是它又真實的存在,下麵的代碼是分別使用frame['total']和frame.total給frame對象的total列賦值,total列開始是不存在的:
frame
Out[60]:
sale fruit year price
0 15000 Apple 2010 3.4
1 17000 Apple 2011 2.4
2 36000 Orange 2012 4.6
3 24000 Orange 2011 3.8
4 29000 Banana 2012 7.3
frame.total = 20
frame
Out[62]:
sale fruit year price
0 15000 Apple 2010 3.4
1 17000 Apple 2011 2.4
2 36000 Orange 2012 4.6
3 24000 Orange 2011 3.8
4 29000 Banana 2012 7.3
frame['total'] = 20
frame
Out[64]:
sale fruit year price total
0 15000 Apple 2010 3.4 20
1 17000 Apple 2011 2.4 20
2 36000 Orange 2012 4.6 20
3 24000 Orange 2011 3.8 20
4 29000 Banana 2012 7.3 20
使用frame.total方式賦值時,是看不到total這一列的,而用frame['total']方式賦值時,則可以看到total這一列。