Intro 對於同樣的數值計算任務,使用numpy比直接編寫python代碼實現 優點: 代碼更簡潔: numpy直接以數組、矩陣為粒度計算並且支持大量的數學函數,而python需要用for迴圈從底層實現; 性能更高效: numpy的數組存儲效率和輸入輸出計算性能,比python使用list好很多, ...
Intro
對於同樣的數值計算任務,使用numpy比直接編寫python代碼實現 優點:
- 代碼更簡潔: numpy直接以數組、矩陣為粒度計算並且支持大量的數學函數,而python需要用for迴圈從底層實現;
- 性能更高效: numpy的數組存儲效率和輸入輸出計算性能,比python使用list好很多,用numpy進行計算要比原生Python快得多,而且數據量越大,效果越明顯;numpy的大部分代碼都是c語言實現的,這是numpy比python高效的原因
numpy核心:ndarray對象
ndarray對象
- numpy的核心數據結構,叫做array就是數組,array對象可以是一維數組,也可以是多維數組
- python的list也可以實現相同的功能,但是array的優勢在於性能好,包含數組元數據信息、大量的便捷函數
- 成為 Scipy、Pandas、scilit-learn、tensorflow、paddlepaddle等框架的通用底層語言
- numpy的array和python的list的一個區別是它的元素必須都是同一種數據類型,這也是numpy高性能的一個原因
ndarray屬性
個人以前會弄混shape和size,註意shape列印的是數組的形狀是一個元組,size則是表示數組大小即總共有多少個元素
- shape 返回一個元組 表示array的形狀
- ndim 返回一個數字 表示array的維度的數目
- size 返回一個數字 表示array中所有數據元素的數目
- dtype array中元素的數據類型,
a.astype(str)
可以把a數組元素轉為str類型 - itemsize 表示數組中每個元素的位元組大小
創建array的方法
- 從Python的列表list和嵌套列表創建array,
np.array([...])
- 使用函數arange、linspace等創建等差數組,
np.arange(start,stop,step,dtype)
左閉右開,np.linspace(start,stop,num,endpoint)
預設左右取閉,num是要刪除的等間隔樣例數量(預設50),endpoint 序列中是否包含stop值, 預設為true - 使用ones、ones_like、zeros、zeros_like、empty、empty_like、full、full_like、eye等函數創建,註意使用empty創建的數據是未初始化的,裡面的值可能是隨機值不要用,full則是將一個給定大小的數組填滿固定值,用法如
np.full((2, 4), 666)
- 生成隨機數的np.random模塊創建,
np.random.seed(2022)
設置隨機種子,使得每次隨機的結果固定,np.random.rand(2,5)
隨機生成 2行5列的2維數組,返回數據在[0,1)之間;np.random.randint(2,5,5)
在[2,5) 範圍內生成5個隨機整數;np.random.uniform(2,5,10)
在 [2,5) 之間 生成均勻分佈的10個數字;np.random.uniform(2,5,(2,5))
在 [2,5) 之間 生成均勻分佈的(2,5)個數字;np.random.randn((2,5))
則返回有標準正態分佈的數據,均值1方差0;np.random.normal(1,10,(2,5))
則可指定均值和標準差;另外,choice
從給定的數組裡 生成隨機結果,shuffle
把一個數組進行隨機排列(如果數組是多維的 則只會在第一維度打散數據),permutation
把一個數組進行隨機排列 ,或者數字的全排列,兩者功能相同但permutation不會更改原來的arr 會返回一個新的copy
numpy的數組索引
三種索引方法:
- 基礎索引,切片法,不詳細敘述
- 神奇索引,就是用整數數組進行的索引,比如對於x = np.arange(10),可以用
x[np.array([[0,2],[1,3]])]
來取x對應位置的值;對於二維數組,Y[:,[0, 2]]
篩選第0和第2列,Y[[0,2,3],[1,2,3]]
同時指定行列 - 布爾索引,對於x = np.arange(10),可以用x>5返回bool值的數組,
x[x>5] = 1
通過條件進行賦值,把x中大於5的值全部賦為1,x[x<5] += 20
,小於5的值全部加20,還可以進行條件組合,比如x[(x%2==0)| (x>7)]
和x[(x%2==0)& (x>7)]
;註意對於二維數組Y = np.arange(20).reshape(4, 5) 來說,既有行又有列 因此返回的是 行列一維數組Y[Y>5]
返回的是行列一維數組,可以用Y[:, 3][Y[:, 3]>5]
把第3列大於5的行數據篩選出來
numpy數據操作
數組數學操作
A*B是對應位置元素相乘,對於arr = np.arange(12).reshape(3,4),可以用各種數學統計函數,包括sum,prod(元素乘積),cumsum(np.cumsum(arr)
從頭到尾累加,每加一次輸出一個元素),cumprod(累積),min,max,median,mean,np.percentile(arr,[25,50,75])
和np.quantile(arr,[0.25,0.5,0.75])
求取數列第?分位的數值(後者範圍為0-1),std(標準差)
,var(方差),np.average(arr, weights=np.random.rand(*arr.shape))
加權平均,argmax 尋找最大值的下標
- 對於numpy的聚合類函數的axis參數解釋:axis=0代表行 axis=1 代表列,axis=0 代表把行消解掉,axis=1 代表把列消解掉;axis=0 代表跨行計算, axis=1 代表跨列計算
數組合併操作
對於a = np.arange(9).reshape(3,3)以及b = np.arange(9,18).reshape(3,3),合併行(行變多)使用np.concatenate([a,b])
或np.vstack([a,b])
或np.row_stack([a,b])
,合併列(列變多)使用np.concatenate([a,b],axis=1)
或np.hstack([a,b])
或np.column_stack([a,b])
。
參考
[1-5 Numpy教程 — 梗直哥隨筆 v0.1 文檔 (gengzhige-essay.readthedocs.io)](https://gengzhige-essay.readthedocs.io/docs/01 環境配置/1-5 Numpy教程.html)
科學計算庫Numpy - mathor (wmathor.com)