Python: Pandas運算的效率探討以及如何選擇高效的運算方式

来源:http://www.cnblogs.com/lemonbit/archive/2017/07/13/7162257.html
-Advertisement-
Play Games

本文就Pandas的運行效率作一個對比的測試,來探討用哪些方式,會使得運行效率較好。 ...


本文就Pandas的運行效率作一個對比的測試,來探討用哪些方式,會使得運行效率較好。

測試環境如下:

  • windows 7, 64位
  • python 3.5
  • pandas 0.19.2
  • numpy 1.11.3
  • jupyter notebook

需要說明的是,不同的系統,不同的電腦配置,不同的軟體環境,運行結果可能有些差異。就算是同一臺電腦,每次運行時,運行結果也不完全一樣。

1 測試內容

測試的內容為,分別用三種方法來計算一個簡單的運算過程,即 a*a+b*b 。

三種方法分別是:

  1. python的for迴圈
  2. Pandas的Series
  3. Numpy的ndarray

首先構造一個DataFrame,數據量的大小,即DataFrame的行數,分別為10, 100, 1000, … ,直到10,000,000(一千萬)。

然後在jupyter notebook中,用下麵的代碼分別去測試,來查看不同方法下的運行時間,做一個對比。

import pandas as pd
import numpy as np

# 100分別用 10,100,...,10,000,000來替換運行
list_a = list(range(100))
# 200分別用 20,200,...,20,000,000來替換運行
list_b = list(range(100,200))
print(len(list_a))
print(len(list_b))

df = pd.DataFrame({'a':list_a, 'b':list_b})
print('數據維度為:{}'.format(df.shape))
print(len(df))
print(df.head())
100
100
數據維度為:(100, 2)
100
   a    b
0  0  100
1  1  101
2  2  102
3  3  103
4  4  104
  • 執行運算, a*a + b*b

  • Method 1: for迴圈

%%timeit

# 當DataFrame的行數大於等於1000000時,請用 %%time 命令
for i in range(len(df)):
    df['a'][i]*df['a'][i]+df['b'][i]*df['b'][i]
100 loops, best of 3: 12.8 ms per loop
  • Method 2: Series
type(df['a'])
pandas.core.series.Series
%%timeit
df['a']*df['a']+df['b']*df['b']
The slowest run took 5.41 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 669 µs per loop
  • Method 3: ndarray
type(df['a'].values)
numpy.ndarray
%%timeit
df['a'].values*df['a'].values+df['b'].values*df['b'].values
10000 loops, best of 3: 34.2 µs per loop

2 測試結果

運行結果如下:

從運行結果可以看出,for迴圈明顯比Series和ndarray要慢很多,並且數據量越大,差異越明顯。當數據量達到一千萬行時,for迴圈的表現也差一萬倍以上。 而Series和ndarray之間的差異則沒有那麼大。

PS: 1000萬行時,for迴圈運行耗時特別長,各位如果要測試,需要註意下,請用 %%time 命令(只測試一次)。

下麵通過圖表來對比下Series和ndarray之間的表現。

從上圖可以看出,當數據小於10萬行時,ndarray的表現要比Series好些。而當數據行數大於100萬行時,Series的表現要稍微好於ndarray。當然,兩者的差異不是特別明顯。

所以一般情況下,個人建議,for迴圈,能不用則不用,而當數量不是特別大時,建議使用ndarray(即df[‘col’].values)來進行計算,運行效率相對來說要好些。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Django添加靜態文件有兩種方法: 首先setting.py配置文件中添加靜態文件的路徑: STATICFILES_DIRS = [ os.path.join(BASE_DIR, "statics"),] statices為你所建立的存放靜態文件的文件夾名 然後進行引用。 1、html 文件中通過 ...
  • 頁面效果 實現步驟 1.Jsp頁面要求 2.VO對象中添加非持久化javabean屬性 3.兩種文件下載方式 方式一:不使用struts2提供的文件下載(普通方式) Action類中添加方法: 方式二:使用struts2提供的文件下載 第一步:配置struts.xml 第二步:VO對象中,添加Inp ...
  • php-ml是一個使用PHP編寫的機器學習庫。雖然我們知道,python或者是C++提供了更多機器學習的庫,但實際上,他們大多都略顯複雜,配置起來讓很多新手感到絕望。php-ml這個機器學習庫雖然沒有特別高大上的演算法,但其具有最基本的機器學習、分類等演算法,我們的小公司做一些簡單的數據分析、預測等等都 ...
  • jdk1.7.0_79 眾所周知,Java是一門不用程式員手動管理記憶體的語言,全靠JVM自動管理記憶體,既然是自動管理,那必然有一個垃圾記憶體的回收機制或者回收演算法。本文將介紹幾種常見的垃圾回收(下文簡稱GC)演算法。 在Java堆上分配一個記憶體給實例對象時,此時在虛擬機棧上引用型變數就會存放這個實例對象 ...
  • 10.文件和異常 學習處理文件,讓程式快速的分析大量數據,學習處理錯誤,避免程式在面對意外時崩潰。學習異常,異常是python創建的特殊對象,用於管理程式運行時出現的錯誤,提高程式的適用性,可用性,和穩定性。 學習模塊json,json可以用於保存用戶數據,避免程式意外停止運行時丟失。 學習處理文件 ...
  • 今天在windows下使用notepad++寫了個python腳本,傳到linux伺服器執行後提示:-bash: ./logger.py: usr/bin/python^M: bad interpreter: No such file or directory 1.原因分析 這是不同系統編碼格式引起 ...
  • 數據分頁 ID 姓名 年齡 專業 pageCount ? pageCount : currPage; PreparedStatement pst = conn.prepareStatement("select * from studen... ...
  • 1.postForObject :傳入一個業務對象,返回是一個String 調用方: BaseUser baseUser=new BaseUser(); baseUser.setUserid(userid); baseUser.setPass(pass); String postForObject ... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...