Python最快的方式來讀取大文本文件（幾GB）

-Advertisement-

我有一個大文本文件（約7 GB）。我正在尋找是否存在閱讀大文本文件的最快方法。我一直在閱讀有關使用多種方法作為讀取chunk-by-chunk以加快進程的過程。例如，effbot建議為了每秒處理96,900行文本。其他作者建議使用islice（） list(islice(f, n))將返回n文件 ...

我有一個大文本文件（約7 GB）。我正在尋找是否存在閱讀大文本文件的最快方法。我一直在閱讀有關使用多種方法作為讀取chunk-by-chunk以加快進程的過程。

例如，effbot建議

# File: readline-example-3.py

file = open("sample.txt")

while 1:
    lines = file.readlines(100000)
    if not lines:
        break
    for line in lines:
        pass # do something**strong text**

為了每秒處理96,900行文本。其他作者建議使用islice（）

from itertools import islice

with open(...) as f:
    while True:
        next_n_lines = list(islice(f, n))
        if not next_n_lines:
            break
        # process next_n_lines

list(islice(f, n))將返回n文件的下一行列表f。在迴圈中使用它將為您提供大量n行的文件

解決方案

with open(<FILE>) as FileObj:
    for lines in FileObj:
        print lines # or do some other thing with the line...

將在此時讀取一行記憶體，併在完成後關閉文件...

本文首發於Python黑洞網，博客園同步更新

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Spring Cloud Zuul的動態路由怎樣做？集成Nacos實現很簡單

一、說明網關的核心概念就是路由配置和路由規則，而作為所有請求流量的入口，在實際生產環境中為了保證高可靠和高可用，是儘量要避免重啟的，所以實現動態路由是非常有必要的；本文主要介紹實現的思路，並且以為數據源來講解二、實現要點要實現動態路由只需關註下麵4個點 1. 網關啟動時，的數 ...
正睿暑期培訓day1考試

"鏈接" A 理解一下題意，然後玩幾組樣例就能發現，實際上就是$k$個$i$等價於$1$個$i 1$。所以就類似於$k$進位進行進位，如果最後$0$位上不是$0$，那麼就存在劃分方案。否則就不存在劃分方案。輸出第一次劃分方案就記錄一下每個數字是不是後面的數字湊出來的。如果是的話就像後面數字連邊。這 ...
Django 實現登錄後跳轉

說明實現網頁登錄後跳轉應該分為兩類：即登錄成功後跳轉和登錄失敗再次登錄成功後跳轉。參考網上內容，基本都只實現了第一類。而沒有實現第二類。實現為了能讓登錄失敗後再次登錄成功後還能實現跳轉。我這裡採用了笨辦法，即：無論登錄成功與否，都將跳轉鏈接在前後端進行傳遞 ,這樣跳轉鏈接就不會在登 ...
import xxx和from xxx import xx中修改被導入模塊裡面的變數的坑

現在有如下幾個模塊： A.py 功能：定義全局變數，供其他模塊使用 B.py 功能：列印A.py中的變數 main.py 運行後我們發現： A模塊中的name被修改了，但在B模塊中列印的還是原來的值。 A模塊中的lists添加了新的元素，顯示正常。原因：使用from A import name ...
利用WxJava實現網站集成微信登錄功能，核心代碼竟然不超過10行

最近網站PC端集成微信掃碼登錄，踩了不少坑，在此記錄下實現過程和註意事項。本文目錄一、微信開放平臺操作步驟1.創建“網站應用”2.獲取AppID和AppSecret二、開髮指南三、開發實戰1、pom.xml引入jar包2、配置文件添加對應的配置3、初始化配置4、控制層核心代碼四、運行效果1.構造 ...
Java多線程編程(1)--走進Java世界中的線程

線程是Java語言中不可或缺的重要功能，它能使複雜的非同步代碼變得更簡單，從而極大地簡化了複雜系統的開發。此外，要想充分發揮多處理器系統的強大計算能力，最簡單的方式就是使用線程。隨著處理器數量的持續增長，如何高效地使用併發正變得越來越重要。 ...
datetime中strptime用法

python中時間日期格式化符號 %y 兩位數的年份表示（00-99）%Y 四位數的年份表示（000-9999）%m 月份（01-12）%d 月內中的一天（0-31）%H 24小時制小時數（0-23）%I 12小時制小時數（01-12）%M 分鐘數（00=59）%S 秒（00-59）%a 本地簡化星 ...
第一部分day1-變數、運算

if 3 > 2: print("yes") elif 3 == 2: print("equal") else: print("no") 1 a = 2**3 2 print(a) #結果為8 3 4 b = 9%2 5 print(b) #結果為1 1 num1 = int(input("num1 ...