python-數據描述與分析(1)_ZenDei技術網路在線

數據描述與分析在進行數據分析之前，我們需要做的事情是對數據有初步的瞭解，這個瞭解就涉及對行業的瞭解和對數據本身的敏感程度，通俗來說就是對數據的分佈有大概的理解，此時我們需要工具進行數據的描述，觀測數據的形狀等；而後才是對數據進行建模分析，挖掘數據中隱藏的位置信息。目前在數據描述和簡單分析方面做的比 ...

數據描述與分析

在進行數據分析之前，我們需要做的事情是對數據有初步的瞭解，這個瞭解就涉及對行業的瞭解和對數據本身的敏感程度，通俗來說就是對數據的分佈有大概的理解，此時我們需要工具進行數據的描述，觀測數據的形狀等；而後才是對數據進行建模分析，挖掘數據中隱藏的位置信息。目前在數據描述和簡單分析方面做的比較好的是Pandas庫。當然，它還需要結合我們之前提到的Numpy,Scipy等科學計算相關庫才能發揮功效。

1.Pandas 數據結構
在進行Pandas相關介紹時我們首先需要知道的是Pandas 的兩個數據結構（即對象）Series 和 DataFrame,這是Pandas的核心結構，掌握了此二者結構和屬性要素，會在具體的數據處理過程中如虎添翼。

1.1 Series 簡介
Series 是一種類似於以為數據的對象，它由兩部分組成，第一部分是一維數據，另外一部分是與此一維數據對應的標簽數據。具體如下：

import pandas as pd
centerSeries =pd.Series(["中國科學院","文獻情報中心","大樓","北四環西路",])
print (centerSeries)

#output:
0     中國科學院
1    文獻情報中心
2        大樓
3     北四環西路
dtype: object

因為我們沒有指定它的標簽數據，而python預設是通過數字排序進行標識，接下來給他添加標示數據，具體如下：

centerSeries =pd.Series(["中國科學院","文獻情報中心","大樓","北四環西路",],index=["a","b","c","d"])
print (centerSeries) #index的size和Series的size必須一樣長，否則報錯

#output:
a     中國科學院
b    文獻情報中心
c        大樓
d     北四環西路
dtype: object

對比之前的預設標識，我們可以看出它由1，2，3，4變成了a,b,c,d。接下來將解釋這樣標識的意義，具體如下：

import pandas as pd
centerSeries =pd.Series(["中國科學院","文獻情報中心","大樓","北四環西路",],index=["a","b","c","d"])
print (centerSeries[0])  #通過一維數組進行獲取數據
print (centerSeries[1])
print (centerSeries["c"])  #通過標識index獲取數據
print (centerSeries["d"])

#output:
中國科學院
文獻情報中心
大樓
北四環西路

另外，我們可以看到通過一維數組格式獲取數據和通過index標識獲取數據都可以，這樣的index就像曾經學過的資料庫中的id列的作用，相當於建立了每個數據的索引。當然，針對Series的操作不只限於此，還有很多需要我們自己去通過“help”查看得到的。

1.2 DataFrame 簡介
DataFrame 是一個表格型的數據結構，它包含有列和行的索引，當然你也可以把它看作是由Series組織成的字典。需要說明的是，DataFrame的每一列中不需要數據類型相同，且它的數據是通過一個或者多個二維塊進行存放，在瞭解DataFrame之前如果讀者對層次化索引有所瞭解，那麼DataFrame 可能相對容易理解，當然如果讀者並不知道何謂層次化索引也沒關係，舉個例子：他類似於常見的excel的表格格式，可將它理解為一張excel表，具體如下：

#簡單的DataFrame 製作
#字典格式的數據
data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data)
print(centerDF)

#output:
 name  year  local student
0     國科圖  2012  北四環西路       甲
1     國科圖  2013  北四環西路       乙
2  文獻情報中心  2014  北四環西路       丙
3  文獻情報中心  2015  北四環西路       丁

#調整列的順序
data = {"local":["北四環西路","北四環西路","北四環西路","北四環西路"],
"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
"year":["2012","2013","2014","2015"],
"student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"])
print(centerDF)

#output:   
year    name  local student
0  2012     國科圖  北四環西路       甲
1  2013     國科圖  北四環西路       乙
2  2014  文獻情報中心  北四環西路       丙
3  2015  文獻情報中心  北四環西路       丁

#更改index的預設設置
data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print(centerDF)

#output：   
year    name  local student
a  2012     國科圖  北四環西路       甲
b  2013     國科圖  北四環西路       乙
c  2014  文獻情報中心  北四環西路       丙
d  2015  文獻情報中心  北四環西路       丁

既然DataFrame 是行列格式的數據，那麼理所當然可以通過行、列的方式進行數據獲取，按列進行數據據獲取，具體如下：

data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print (centerDF["name"])
print (centerDF["student"])

#output：
a       國科圖
b       國科圖
c    文獻情報中心
d    文獻情報中心
Name: name, dtype: object
a    甲
b    乙
c    丙
d    丁
Name: student, dtype: object

另外，可以看出按列進行獲取時他們的index標識是相同的，且每一列是一個Series 對象

按行進行數據獲取，其實是通過index進行操作，具體如下：

data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print (centerDF.loc["a"])

#在使用進行DataFrame.ix進行表中的數據塊選擇的時候，會拋出’DataFrame’ object has no attribute ‘ix’，這個是由於在不同的pandas的版本中，DataFrame的相關屬性已過期，已不推薦使用導致的。
#參考代碼先鋒網

#output：
year        2012
name         國科圖
local      北四環西路
student        甲
Name: a, dtype: object

另外，同樣可以看出每一行是一個Series 對象，此時該Series的index其實就是DataFrame 的列名稱，綜上來看，對於一個DataFrame 來說，它是縱橫雙向進行索引，只是每個Series（縱橫）都共用一個索引而已

1.3 利用Pandas載入、保存數據
在進行數據處理時我們首要工作是把數據載入到記憶體中，這一度成為程式編輯的軟肋，但是Pandas包所提供的功能幾乎涵蓋了大多數的數據處理的載入問題，如read_csv、read_ExcelFile

(1)載入csv格式的數據

import pandas as pd
data_csv = pd.read_csv("D:/python_cailiao/test.csv")  #它的預設屬性有sep=","
data_csv

#output:
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    李四
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三

data_csv = pd.read_csv("D:/python_cailiao/test.csv",sep="#")   #更改預設屬性sep="#"
data_csv

#output：
school,institute,grades,name
0    中國科學院大學,文獻情報中心,15級,田鵬偉
1    中國科學院大學,文獻情報中心,15級,李四
2    中國科學院大學,文獻情報中心,15級,王五
3    中國科學院大學,文獻情報中心,15級,張三

data_csv = pd.read_csv("D:/python_cailiao/test.csv",header=None,skiprows=[0])  #不要表頭Header
data_csv

#output：
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    李四
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三

data_csv.columns=["school","institute","grades","name"]
data_csv  #自行添加表頭列

#output：
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    李四
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三

另外，綜上，通過對csv格式的文件進行讀取，我們可以指定讀入的格式（sep=","）,也可以指定他的header為空None，最後添加column，而之所以可以後來添加的原因是讀入的csv已經是DataFrame格式對象

(2)保存csv數據

data_csv.loc[1,"name"]="顧老師"
data_csv.to_csv("D:/python_cailiao/save.csv")

(1)載入excel格式的數據

data_excel = pd.read_excel("D:/python_cailiao/excel.xlsx",sheet_name="test")
data_excel

#output：
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    李四
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三

data_excel.loc[1,"name"]="顧立平老師"
data_excel

#output:
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    顧立平老師
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三

(2)保存數據

data_excel.to_excel("D:/python_cailiao/save.xlsx",sheet_name="test")

另外，對於excel文件來說同csv格式的處理相差無幾，但是excel文件在處理時需要指定sheetname屬性（讀取和寫入sheet_name)

參考書目：《數據館員的python簡明手冊》