Read a large file with python_ZenDei技術網路在線

Read a large file with python

-Advertisement-

python讀取大文件 1. 較pythonic的方法，使用with結構文件可以自動關閉異常可以在with塊內處理 <! more 最大的優點：對可迭代對象 f，進行迭代遍歷：for line in f，會自動地使用緩衝IO（buffered IO）以及記憶體管理，而不必擔心任何大文件的問題。 ...

python讀取大文件

較pythonic的方法，使用with結構

文件可以自動關閉
異常可以在with塊內處理

    with open(filename, 'rb') as f:  
        for line in f:
            <do someting with the line>

最大的優點：對可迭代對象 f，進行迭代遍歷：for line in f，會自動地使用緩衝IO（buffered IO）以及記憶體管理，而不必擔心任何大文件的問題。

There should be one – and preferably only one – obvious way to do it.

使用生成器generator

如果想對每次迭代讀取的內容進行更細粒度的處理，可以使用yield生成器來讀取大文件

    def readInChunks(file_obj, chunkSize=2048):
        """
        Lazy function to read a file piece by piece.  
        Default chunk size: 2kB.
        """
        while True:
            data = file_obj.read(chunkSize)
            if not data:
                break
            yield data
    f = open('bigFile')
    for chunk in readInChunks(f):
        do_something(chunk)
    f.close()

linux下使用split命令（將一個文件根據大小或行數平均分成若幹個小文件）

    wc -l BLM.txt  # 讀出BLM.txt文件一共有多少行
    # 利用split進行分割
    split -l 2482 ../BLM/BLM.txt -d -a 4 BLM_
    # 將 文件 BLM.txt 分成若幹個小文件，每個文件2482行(-l 2482)，文件首碼為BLM_ ，繫數不是字母而是數字（-d），尾碼繫數為四位數（-a 4）  


    # 按行數分割
    split -l 300 large_file.txt new_file_prefix
    # 文件大小分割
    split -b 10m server.log waynelog

    # 對文件進行合併：使用重定向，'>' 寫入文件  , '>>' 追加到文件中
    cat file_prefix* > large_file

在工作中的日常：用戶信息，log日誌緩存，等都是大文件

補充：linecache模塊

當讀取一個文件的時候，python會嘗試從緩存中讀取文件內容，優化讀取速度，提高效率，減少了I/O操作

linecache.getline(filename, lineno) 從文件中讀取第幾行，註意：包含換行符
linecache.clearcache() 清除現有的文件緩存
linecache.checkcache(filename=None) 檢查緩存內容的有效性，可能硬碟內容發生改變，更新了，如果沒有參數，將檢查緩存中的所有記錄(entries)

    import linecache
    linecache.getline(linecache.__file__, 8)

題目：
現給一個文件400M（該文件是由/etc/passwd生成的），統計其中root字元串出現的次數

    import time
    sum = 0
    start = time.time()
    with open('file', 'r') as f:
        for i in f:
            new = i.count('root')
            sum+=new
    end = time.time()
    print(sum, end-start)

註:有時候這個程式比c,shell快10倍，原因就是，python會讀取cache中的數據，使用緩存在內部進行優化，減少i/o，提高效率

References : How to read a large file

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

vue可視化圖表基於Echarts封裝好的v-charts簡介

**vue可視化圖表基於Echarts封裝好的v-charts** 近期公司又一個新的需求，要做一個訂單和銷售額統計的項目，需要用到可視化圖表來更直觀的展示數據。首先我想到的是Echarts，眾所周知Echarts是一個應用很廣的可視化圖表庫，用來展示統計數據更合適不過，但是偶然間發現了一個更為方 ...
【Python3爬蟲】最新的模擬登錄新浪微博教程

一、寫在前面首先呢，由於之前重裝系統，又要重新配置環境，然後還有一些別的事，導致我一直沒有寫爬蟲了，不過現在又可以繼續寫了。然後我這次說的模擬登錄新浪微博呢，不是使用Selenium模擬瀏覽器操作，畢竟Selenium的效率是真的有些低，所以我選擇用Python發送請求實現模擬登錄，整個過程還算 ...
爬取騰訊招聘網信息

import requests from bs4 import BeautifulSoup from math import ceil header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (... ...
四大國產資料庫?你瞭解用過嗎

一般公司的項目一般都是用Oracle、Mysql、SQL Server等一些國外的資料庫。前段時間公司做了一個國家政府保密單位的項目,別人要求用國產資料庫,所以研究了下,最後決定用神舟通用的,其實國產也很好幾家做資料庫的還不錯,下邊簡單總結了下,以供參考 1:南大通用公司簡介天津南大通用數據技術 ...
CTF編程題-三羊獻瑞（實驗吧）解題隨記

題目如下。解題步驟參考的是https://cloud.tencent.com/developer/news/373865中作者的思路。 1.首先，兩個四位數相加等於一個五位數，那麼這個五位數的第一位必定是1，也就是“三”=1,。 2.繼續分析“祥”+“三”，若是“祥”(8)，“三”為1，那麼低位必定 ...
學習筆記—JDBC

JDBC的使用流程，通過JDBC進行對資料庫增刪改查的操作及代碼封裝。 ...
loj#6073. 「2017 山東一輪集訓 Day5」距離(費用流)

題意 "題目鏈接" Sol 我們可以把圖行列拆開，同時對於行/列拆成很多個聯通塊，然後考慮每個點所在的行聯通塊/列聯通塊的貢獻。可以這樣建邊從S向每個行聯通塊連聯通塊大小條邊，每條邊的容量為1，費用為$i$(i表示這是第幾條邊)。從每個點所在的行聯通塊向列聯通塊連邊，容量為1，費用為0 從每個 ...
上次被人說TK不好咯，這次給你整個高大上的

想要熟練使用PyQt，還是需要深入研究下這個庫的使用，筆者這裡只是拋磚引玉。關註公眾號「**Python專欄**」，後臺回覆：**zsxq06**，獲取本文全套代碼。 ...