Anaconda 是一個跨平臺的版本,通過命令行來管理安裝包。進行大規模數據處理、預測分析和科學計算。它包括近 200 個工具包,大數據處理需要用到的常見包有 NumPy 、 SciPy 、 pandas 、 IPython 、 Matplotlib 、 Scikit-learn 、statsmod ...
Anaconda 是一個跨平臺的版本,通過命令行來管理安裝包。進行大規模數據處理、預測分析和科學計算。它包括近 200 個工具包,大數據處理需要用到的常見包有 NumPy 、 SciPy 、 pandas 、 IPython 、 Matplotlib 、 Scikit-learn 、statsmodels、gensim、nltk、networkx、beautifulsoup4和statsmodels 等。
可以直接通過命令進行安裝。如下圖,分別安裝上述相關文件(示例安裝pandas,其他類似)。
一、NumPy(Numerical Python)
NumPy是 Python 語言的一個擴展程式庫,支持大量的維度數組與矩陣運算,也針對數組運算提供大量的數學函數庫。NumPy 為開放源代碼並且由許多協作者共同維護開發,是一個運行速度非常快的數學庫,用於數組計算。
NumPy 通常與 SciPy(Scientific Python)和 Matplotlib(繪圖庫)一起使用,可廣泛用於替代 MatLab,是一個強大的科學計算環境,便於後期學習數據科學和者機器學習。 SciPy 是一個開源的 Python 演算法庫和數學工具包, 包含的模塊有最優化、線性代數、積分、插值、特殊函數、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算。
Matplotlib 是 Python 編程語言及其數值數學擴展包 NumPy 的可視化操作界面,是為利用通用的圖形用戶界面工具包,如 Tkinter, wxPython, Qt 或 GTK+ 嚮應用程式嵌入式繪圖提供了應用程式介面(API),前期在數據可視化中做作過簡單的介紹。
1、numpy中的數組操作及代碼
NumPy中的ndarray是一個多維數組對象,該對象由兩部分組成:實際的數據和描述這些數據的元數據,大部分的數組操作僅僅修改元數據部分。
import numpy as np #導入numpy包,並另命令為np a = np.arange(5) # 調用numpy中的函數arange,函數創建數組 print(a.dtype) # 列印出數組a的數據類型 print(a.shape) #數組的 shape 屬性返回一個元組(tuple),元組中的元素即為NumPy數組每一個維度上的大小 print('\n') #創建多維數組 m = np.array([np.arange(5), np.arange(5)]) #列表作為參數傳給array函數,從而創建了一個5×2的數組 print(m) #選取數組元素 print(m[0,0]) print(m[0,1]) print(m[1,1]) print(m[1,2]) print(m[1,3]) # NumPy 自定義的異構數據類型,該數據類型包括一個用字元串記錄的名字、一個用 # 整數記錄的數字以及一個用浮點數記錄的價格 t = np.dtype([('name', np.str_, 40), ('numitems', np.int32), ('price',np.float32)]) print(t) # 一維數組的索引和切片 a = np.arange(9) print(a[3:7]) print('\n') #多維數組的切片和索引 b = np.arange(24).reshape(2,3,4) #reshape函數的作用是改變數組的“形狀”,也就是改變數組的維度 #其參數為一個正整數元組,分別指定數組在每個維度上的大小 print(b.shape) print('\n') print(b) print('\n') print(b[0]) print('\n') print(b[:,0,0]) #下標用英文標點的冒號:來代替,表示不限該位置的參數,即列印出b的第1行,第1列的所有元組的數據。
運行結果如下:
至於具體更詳細的用法,可以多試試。
二、numpy改變數組的維度
上述的reshape函數可以將一維數組[0,1,2,...,23]轉變為具有2個元素,每個元素是一個二維數組的三維數組,同樣,也可以將多維數組轉變為一維數組(將數組展平)。
可以用 ravel 等函數完成相關操作,見如下代碼:
import numpy as np #導入numpy包,並另命令為np c = np.array([ #先定義一個numpy的多維數組 [[0,1,2,3],[4,5,6,7],[8,9,10,11]], [[12,13, 14,15],[16,17,18,19],[20,21,22,23]] ]) e=d=c print (c.ravel()) print('\n') print(c.flatten()) print('\n') #用元組設置維度 d.shape = (6,4) print(d) print('\n') # transpose用於轉置,即行列互換,即線性代數中的轉置矩陣 print(e.transpose())
運行結果:
三、數組的組合
NumPy數組有水平組合、垂直組合和深度組合等多種組合方式,使用 vstack 、dstack 、 hstack 、 column_stack 、 row_stack 以及 concatenate 等函數來完成數組的組合。
import numpy as np #導入numpy包,並另命令為np a = np.arange(9).reshape(3,3)#定義a為3行3列的二維數組 b=2*a #定義b,且b的每個元素均為a的兩倍。 print(a) #列印出a數列 print('\n') print(b) #列印出b數列
print('\n')
運行結果:
[[0 1 2] [3 4 5] [6 7 8]] [[ 0 2 4] [ 6 8 10] [12 14 16]]
分別看一下組合後的運行結果,代碼如下:
import numpy as np #導入numpy包,並另命令為np a = np.arange(9).reshape(3,3) #定義a為3行3列的二維數組 b=2*a #定義b,且b的每個元素均為a的兩倍,數組結構與a一致。 #水平組合:將ndarray對象構成的元組作為參數,傳給hstack 函數 print(np.hstack((a, b))) #水平組合 print('\n') print(np.concatenate((a, b), axis=1)) #註意axis參數 print('\n') #垂直組合 print(np.vstack((a, b))) print('\n') print(np.concatenate((a, b), axis=0))#註意axis=0是預設值,即可以不設置。 print('\n')
運行結果如下:
很明顯,上述函數np.hstack((a,b))的結果顯示為將a的行與b的行連成一個更長的行(np.concatenate()函數一樣,只是多了一個參數),相當於增加了數組的列數。
而np.vstack((a,b)),則是結合成具有更多的行,而列數不變。用二維表示如下:
接下來看一下深度組合、列組合、行組合
import numpy as np #導入numpy包,並另命令為np a = np.arange(9).reshape(3,3) #定義a為3行3列的二維數組 b=2*a #定義b,且b的每個元素均為a的兩倍,數組結構與a一致。 #深度組合 將相同的元組作為參數傳給 dstack print(np.dstack((a, b))) print('\n') #列組合 print(np.column_stack((a, b)))#對於二維數組,column_stack 與hstack的效果是相同 print('\n') # 行組合 print(np.row_stack((a,b)))#對於二維數組,column_stack與vstack 的效果是相同
從上可以看出,深度組合,就是將一系列數組沿著縱軸(深度)方向進行層疊組合,比如這裡只有2個數組a和b,所以深度只有2,由於a和b都是3*3,就形成如下結果:
二維數組中,行組合和列組合與水平組合、垂直組合一樣,不作過多介紹。
四、數組的分割
數組能組合 ,當然也能分割成多個子數組。像組合一樣,也可分為水平分割、垂直分割、深度分割。
1、水平分割 和垂直分割
import numpy as np #導入numpy包,並另命令為np a = np.array([[0, 1, 2],[3, 4, 5],[6, 7, 8]]) #定義一個多維數組 #水平分割 print(np.hsplit(a,3)) #hsplit把數組沿著水平方向分割為3個相同大小的子數組 # 或者 print(np.split(a,3,axis=1)) #同hsplit #垂直分割 print(np.vsplit(a,3)) #vsplit把數組沿著垂直方向分割為3個相同大小的子數組 # 或者 print(np.split(a,3,axis=0)) #同vsplit,註意參數
運行結果:
整理後,得到:[array([[0],[3],[6]]), array([[1], [4],[7]]), array([[2],[5],[8]])]也就是將0,3,6歸為一組,註意:都是分別用"[ ]"和","分開的。
2、深度分割
import numpy as np #導入numpy包,並另命令為np c = np.array(np.arange(27).reshape(3, 3, 3)) #創建一個多維數組,並設置 print(np.dsplit(c,3))
運行結果如下:
[array([[[ 0],[ 3],[ 6]],[[ 9],[12],[15]],[[18],[21],[24]]]),
array([[[ 1],[ 4],[ 7]],[[10],[13],[16]],[[19],[22],[25]]]),
array([[[ 2],[ 5],[ 8]],[[11],[14],[17]],[[20],[23],[26]]])
]
生成的C數組為 :
這三塊數據應該像紙張一樣疊加的,0,3,6的下一層對應的是9,12,15,再下一層是18,21,24。
五、Numpy數組的其他屬性
在開始的代碼中有 .dtype和 .shape分別是數組的兩個不同的屬性,除此之外,還有其他屬性,如下:
import numpy as np #導入numpy包,並另命令為np a = np.array([[0, 1, 2],[3, 4, 5],[6, 7, 8]]) #定義一個多維數組 print(a.dtype) #數組a的數據類型 print(a.shape) #數組a的維數 print(a.ndim) #給出數組的維數,或數組軸的個數 print(a.size) #給出數組元素的總個數 print(a.itemsize) #元素在記憶體中所占的位元組數 print(a.nbytes) #元素在記憶體中所占的存儲空間,itemsize和size屬性值的乘積 #複數的表示 b = np.array([1.j + 1, 2.j + 3]) print(b.real)#列印實數 print(b.imag)#列印虛數部分 c = np.arange(4).reshape(2,2) print(c) f = c.flat #flat屬性,可以像遍歷一維數組一樣去遍歷任意的多維數組 for item in f : print(item) #或者獲取多個元素 print( c.flat[[1,3]]) #flat 屬性是一個可賦值的屬性。對flat屬性賦值將導致整個數組的元素都被覆蓋 c.flat=5 # 對flat屬性賦值將導致整個數組的元素都被覆蓋 print(c) b = np.array([1.j + 1, 2.j + 3]) # 數組的轉換 print( b.tolist()) print( b.astype(int)) #astype 函數可以在轉換數組時指定數據類型int
運行結果如下:
小結:
上述列舉了許多有關NumPy的基礎知識:數據類型和NumPy數組。類似於Python列表,NumPy數組也可以方便地進行切片和索引操作。但在多維數組上,NumPy有明顯的優勢。
對涉及改變數組維度的操作有很多種——組合、調整、設置維度和分割等,列舉了實用函數進行了說明。