Read a large file with python

来源:https://www.cnblogs.com/panlq/archive/2019/03/29/10618852.html
-Advertisement-
Play Games

python讀取大文件 1. 較pythonic的方法,使用with結構 文件可以自動關閉 異常可以在with塊內處理 <! more 最大的優點 :對可迭代對象 f,進行迭代遍歷:for line in f,會自動地使用緩衝IO(buffered IO)以及記憶體管理,而不必擔心任何大文件的問題。 ...


python讀取大文件

  1. 較pythonic的方法,使用with結構
    • 文件可以自動關閉
    • 異常可以在with塊內處理
        with open(filename, 'rb') as f:  
            for line in f:
                <do someting with the line>  

最大的優點:對可迭代對象 f,進行迭代遍歷:for line in f,會自動地使用緩衝IO(buffered IO)以及記憶體管理,而不必擔心任何大文件的問題。

There should be one – and preferably only one – obvious way to do it.

  1. 使用生成器generator

如果想對每次迭代讀取的內容進行更細粒度的處理,可以使用yield生成器來讀取大文件

    def readInChunks(file_obj, chunkSize=2048):
        """
        Lazy function to read a file piece by piece.  
        Default chunk size: 2kB.
        """
        while True:
            data = file_obj.read(chunkSize)
            if not data:
                break
            yield data
    f = open('bigFile')
    for chunk in readInChunks(f):
        do_something(chunk)
    f.close()
  1. linux下使用split命令(將一個文件根據大小或行數平均分成若幹個小文件)
    wc -l BLM.txt  # 讀出BLM.txt文件一共有多少行
    # 利用split進行分割
    split -l 2482 ../BLM/BLM.txt -d -a 4 BLM_
    # 將 文件 BLM.txt 分成若幹個小文件,每個文件2482行(-l 2482),文件首碼為BLM_ ,繫數不是字母而是數字(-d),尾碼繫數為四位數(-a 4)  


    # 按行數分割
    split -l 300 large_file.txt new_file_prefix
    # 文件大小分割
    split -b 10m server.log waynelog

    # 對文件進行合併:使用重定向,'>' 寫入文件  , '>>' 追加到文件中
    cat file_prefix* > large_file

在工作中的日常: 用戶信息,log日誌緩存,等都是大文件

補充:linecache模塊

當讀取一個文件的時候,python會嘗試從緩存中讀取文件內容,優化讀取速度,提高效率,減少了I/O操作

linecache.getline(filename, lineno) 從文件中讀取第幾行,註意:包含換行符
linecache.clearcache() 清除現有的文件緩存
linecache.checkcache(filename=None) 檢查緩存內容的有效性,可能硬碟內容發生改變,更新了,如果沒有參數,將檢查緩存中的所有記錄(entries)

    import linecache
    linecache.getline(linecache.__file__, 8)

題目:
現給一個文件400M(該文件是由/etc/passwd生成的),統計其中root字元串出現的次數

    import time
    sum = 0
    start = time.time()
    with open('file', 'r') as f:
        for i in f:
            new = i.count('root')
            sum+=new
    end = time.time()
    print(sum, end-start)

:有時候這個程式比c,shell快10倍,原因就是,python會讀取cache中的數據,使用緩存在內部進行優化,減少i/o,提高效率

References : How to read a large file


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • **vue可視化圖表 基於Echarts封裝好的v-charts** 近期公司又一個新的需求,要做一個訂單和銷售額統計的項目,需要用到可視化圖表來更直觀的展示數據。首先我想到的是Echarts,眾所周知Echarts是一個應用很廣的可視化圖表庫,用來展示統計數據更合適不過,但是偶然間發現了一個更為方 ...
  • 一、寫在前面 首先呢,由於之前重裝系統,又要重新配置環境,然後還有一些別的事,導致我一直沒有寫爬蟲了,不過現在又可以繼續寫了。 然後我這次說的模擬登錄新浪微博呢,不是使用Selenium模擬瀏覽器操作,畢竟Selenium的效率是真的有些低,所以我選擇用Python發送請求實現模擬登錄,整個過程還算 ...
  • import requests from bs4 import BeautifulSoup from math import ceil header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (... ...
  • 一般公司的項目一般都是用Oracle、Mysql、SQL Server等一些國外的資料庫。前段時間公司做了一個國家政府保密單位的項目,別人要求用國產資料庫,所以研究了下,最後決定用神舟通用的,其實國產也很好幾家做資料庫的還不錯,下邊簡單總結了下,以供參考 1:南大通用 公司簡介 天津南大通用數據技術 ...
  • 題目如下。解題步驟參考的是https://cloud.tencent.com/developer/news/373865中作者的思路。 1.首先,兩個四位數相加等於一個五位數,那麼這個五位數的第一位必定是1,也就是“三”=1,。 2.繼續分析“祥”+“三”,若是“祥”(8),“三”為1,那麼低位必定 ...
  • JDBC的使用流程,通過JDBC進行對資料庫增刪改查的操作及代碼封裝。 ...
  • 題意 "題目鏈接" Sol 我們可以把圖行列拆開,同時對於行/列拆成很多個聯通塊,然後考慮每個點所在的行聯通塊/列聯通塊的貢獻。 可以這樣建邊 從S向每個行聯通塊連聯通塊大小條邊,每條邊的容量為1,費用為$i$(i表示這是第幾條邊)。 從每個點所在的行聯通塊向列聯通塊連邊,容量為1,費用為0 從每個 ...
  • 想要熟練使用PyQt,還是需要深入研究下這個庫的使用,筆者這裡只是拋磚引玉。 關註公眾號「**Python專欄**」,後臺回覆:**zsxq06**,獲取本文全套代碼。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...