3.0 Python 迭代器與生成器

来源:https://www.cnblogs.com/LyShark/archive/2023/08/12/17624639.html
-Advertisement-
Play Games

當我們需要處理一個大量的數據集合時,一次性將其全部讀入記憶體並處理可能會導致記憶體溢出。此時,我們可以採用迭代器`Iterator`和生成器`Generator`的方法,逐個地處理數據,從而避免記憶體溢出的問題。迭代器是一個可以逐個訪問元素的對象,它實現了`python`的迭代協議,即實現了`__iter... ...


當我們需要處理一個大量的數據集合時,一次性將其全部讀入記憶體並處理可能會導致記憶體溢出。此時,我們可以採用迭代器Iterator和生成器Generator的方法,逐個地處理數據,從而避免記憶體溢出的問題。

迭代器是一個可以逐個訪問元素的對象,它實現了python的迭代協議,即實現了__iter__()__next__()方法。通過調用__next__()方法,我們可以逐個訪問迭代器中的元素,直到所有元素都被訪問完畢,此時再次調用__next__()方法會引發StopIteration異常。

生成器是一種特殊的迭代器,它的實現方式更為簡潔,即通過yield語句來實現。生成器函數使用yield語句返回值,當生成器函數被調用時,它會返回一個生成器對象,通過調用__next__()方法來逐個訪問生成器中的元素,直到所有元素都被訪問完畢,此時再次調用__next__()方法會引發StopIteration異常。

使用迭代器和生成器可以有效地避免記憶體溢出問題,並且代碼實現也更為簡潔、高效。在python中,很多內置函數和語言特性都支持迭代器和生成器的使用,例如for迴圈、列表推導式、生成器表達式等。

3.1 使用迭代器

迭代器可以通過內置函數iter()進行創建,同時可以使用next()函數獲取下一個元素,如果迭代器沒有更多的元素,則拋出StopIteration異常在for迴圈中,迭代器可以自動實現例如for x in my_iterable:語句就可以遍歷my_iterable對象的所有元素。此外python中還有一種特殊的迭代器,稱為生成器(generator),生成器是一種用簡單的方法實現迭代器的方式,使用了yield語句,生成器在執行過程中可以暫停並繼續執行,而函數則是一旦開始執行就會一直執行到返回。

創建基本迭代器: 首先聲明列表,然後使用__iter__將其轉為迭代器,並通過__next__遍歷迭代對象.

>>> list = [1,2,3,4,5,6,7,8,9,10]
>>>
>>> item = list.__iter__()
>>> type(item)
<class 'list_iterator'>
>>>
>>> item.__next__()
1
>>> next(item)
2

迭代器遍歷日誌文件: 使用迭代器可以實現對文本文件或日誌的遍歷,該方式可以遍歷大型文件而不會出現卡死現象.

# 手動訪問迭代器中的元素,可以使用next()函數
>>> with open("passwd.log") as fp:
...     try:
...             while True:
...                     print(next(fp))
...     except StopIteration:
...             print("none")

# 通過指定返回結束值來判斷迭代結束
>>> with open("passwd.log") as fp:
...     while True:
...             line = next(fp,None)
...             if line is None:
...                     break
...             print(line)

迴圈遍歷迭代元素: 由於迭代器遍歷結束會報錯,所以要使用try語句拋出一個StopIteration結束異常.

>>> listvar = ["呂洞賓", "張果老", "藍採和", "特乖離", "和香菇", "漢鐘離", "王文"]
>>> item = listvar.__iter__()
>>>
>>> while True:
...     try:
...             temp = next(item)
...             print(temp)
...     except StopIteration:
...             break

迭代器與數組之間互轉: 通過使用enumerate方法,並將列表轉為迭代器對象,然後將對象轉為制定格式.

>>> listvar = ["呂洞賓", "張果老", "藍採和", "特乖離", "和香菇", "漢鐘離", "王文"]
>>>
>>> iter = enumerate(listvar)  # 轉換為迭代器
>>> dict = tuple(iter)         # 轉換為元組
>>> dict
((0, '呂洞賓'), (1, '張果老'), (2, '藍採和'), (3, '特乖離'), (4, '和香菇'), (5, '漢鐘離'), (6, '王文'))
>>>
>>> dict = list(iter)
>>> dict
[(0, '呂洞賓'), (1, '張果老'), (2, '藍採和'), (3, '特乖離'), (4, '和香菇'), (5, '漢鐘離'), (6, '王文')]

3.2 使用生成器

生成器是一種可以動態生成數據的迭代器,不同於列表等容器類型一次性把所有數據生成並存儲在記憶體中,生成器可以在需要時動態生成數據,這樣可以節省記憶體空間和提高程式效率.使用生成器可以通過for迴圈遍歷序列、列表等容器類型,而不需要提前知道其中所有元素.生成器可以使用yield關鍵字返回值,每次調用yield會暫停生成器並記錄當前狀態,下一次調用時可以從上一次暫停的地方繼續執行,而生成器的狀態則保留在生成器對象內部.除了使用next()函數調用生成器外,還可以使用send()函數向生成器中發送數據,併在生成器內部使用yield表達式接收發送的數據.

當我們調用一個生成器函數時,其實返回的是一個迭代器對象
只要表達式中使用了yield函數,通常將此類函數稱為生成器(generator)
運行生成器時,每次遇到yield函數,則會自動保存並暫停執行,直到使用next()方法時,才會繼續迭代
跟普通函數不同,生成器是一個返回迭代器的函數,只能用於迭代操作,更簡單點理解生成器就是一個迭代器

在學習生成器之前,需要一些前置知識,先來研究一下列表解析,列表解析是python迭代機制的一種應用,它常用於實現創建新的列表,因此要放置於[]中,列表解析非常靈活,可以用戶快速創建一組相應規則的列表元素,且支持迭代操作.

列表生成式基本語法: 通過列表生成式,我們可以完成數據的生成與過濾等操作.

>>> ret = [item for item in range(30) if item >0]
>>> print(ret)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]
>>>
>>> ret = [item for item in range(30) if item >3]
>>> print(ret)
[4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]
>>>
>>> ret = [item for item in range(30) if item%2!=0]
>>> ret
[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29]

列表式求階乘: 通過列表解析式,來實現列表的迭代求階乘,並且只列印大於2(if x>=2)的數據.

>>> var = [1,2,3,4,5]
>>> retn = [ item ** 2 for item in var ]
>>> retn
[1, 4, 9, 16, 25]
>>>
>>> retn = [ item ** 2 for item in var if item >= 2 ]
>>> retn
[4, 9, 16, 25]
>>>
>>> retn = [ (item**2)/2 for item in range(1,10) ]
>>> retn
[0.5, 2.0, 4.5, 8.0, 12.5, 18.0, 24.5, 32.0, 40.5]

數據轉換: 通過使用列表生成式,實現將一個字元串轉換成一個合格的列表.

>>> String = "a,b,c,d,e,f,g,h"
>>> List = [item for item in String.split(",")]
>>> List
['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']

數據合併: 通過列表解析式,實現迭代將兩個列表按照規律合併.

>>> temp1=["x","y","z"]
>>> temp2=[1,2,3]
>>> temp3=[ (i,j) for i in temp1 for j in temp2 ]
>>> temp3
[('x', 1), ('x', 2), ('x', 3), ('y', 1), ('y', 2), ('y', 3), ('z', 1), ('z', 2), ('z', 3)]

文件過濾: 通過使用列表解析,實現文本的過濾操作.

>>> import os

>>> file_list=os.listdir("/var/log")
>>> file_log=[ i for i in file_list if i.endswith(".log") ]
>>> print(file_log)
['boot.log', 'yum.log', 'ecs_network_optimization.log', 'ntp.log']

>>> file_log=[ i for i in os.listdir("/var/log") if i.endswith(".log") ]
>>> print(file_log)
['boot.log', 'yum.log', 'ecs_network_optimization.log', 'ntp.log']

接下來我們就來研究一下生成器吧,生成器類似於返回值為數組的一個函數,這個函數可以接受參數,可以被調用,但不同於一般的函數會一次性返回包括了所有數值的數組,生成器一次只能產生一個值,這樣消耗的記憶體數量將大大減小,而且允許調用函數可以很快的處理前幾個返回值,因此生成器看起來像是一個函數,但是表現得卻像是迭代器.

我們先來看以下兩種情況的對比,第一種方法很簡單,只有把一個列表生成式的[]中括弧改為()小括弧,就創建了一個生成器.

>>> lis = [x*x for x in range(10)]
>>> print(lis)
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

>>> generator = (x*x for x in range(10))
>>> print(generator)
<generator object <genexpr> at 0x0000022E5C788A98>

如上例子,第一個lis通過列表生成式,創建了一個列表,而第二個generator則列印出一個記憶體地址,如果我們想獲取到第二個變數中的數據,則需要迭代操作,如下所示:

>>> generator = (x*x for x in range(10))

>>> print(next(generator))
0
>>> print(next(generator))
1
>>> print(next(generator))
4
>>> print(next(generator))
9

以上可以看到,generator保存的是演算法,每次調用next(generaotr),就計算出他的下一個元素的值,直到計算出最後一個元素,使用for迴圈可以簡便的遍歷出迭代器中的數據,因為generator也是可迭代對象.

>>> generator = (x*x for x in range(10))
>>> 
>>> for i in generator:
    print(i,end="")

0149162536496481

生成器表達式並不真正創建數字列表,而是返回一個生成器對象,此對象在每次計算出一個條目後,把這個條目"產生"(yield)出來,生成器表達式使用了"惰性計算"或稱作"延遲求值"的機制序列過長,並且每次只需要獲取一個元素時,應當考慮使用生成器表達式而不是列表解析.

>>> import sys
>>> 
>>> yie=( i**2 for i in range(1,10) )
>>> next(yie)
1
>>> next(yie)
4
>>> next(yie)
9

>>> for j in ( i**2 for i in range(1,10)):print(j/2)

3.3 隊列的使用

隊列是一個多線程編程中常用的數據結構,它提供了一種可靠的方式來安全地傳遞數據和控制線程間的訪問. 在多線程環境下,如果沒有同步機制,多個線程同時訪問共用資源,可能會導致數據混亂或者程式崩潰.而Queue隊列就是一種線程安全的數據結構,它提供了多個線程訪問和操作的介面,可以保證多個線程之間的數據安全性和順序性. 通過Queue隊列,一個線程可以將數據放入隊列,而另一個線程則可以從隊列中取出數據進行處理,實現了線程之間的通信和協調.

先進先出隊列: 先來介紹簡單的隊列例子,以及隊列的常用方法的使用,此隊列是先進先出模式.

import queue

q = queue.Queue(5)                    #預設maxsize=0無限接收,最大支持的個數
print(q.empty())                      #查看隊列是否為空,如果為空則返回True

q.put(1)                              #PUT方法是,向隊列中添加數據
q.put(2)                              #第二個PUT,第二次向隊列中添加數據
q.put(3,block=False,timeout=2)        #是否阻塞:預設是阻塞block=True,timeout=超時時間

print(q.full())                       #查看隊列是否已經放滿
print(q.qsize())                      #隊列中有多少個元素
print(q.maxsize)                      #隊列最大支持的個數

print(q.get(block=False,timeout=2))   #GET取數據
print(q.get())                        
q.task_done()       #join配合task_done,隊列中有任務就會阻塞進程,當隊列中的任務執行完畢之後,不在阻塞
print(q.get())
q.task_done()
q.join()            #隊列中還有元素的話,程式就不會結束程式,只有元素被取完配合task_done執行,程式才會結束
import queue

def show(q,i):
    if q.empty() or q.qsize() >= 1:
        q.put(i)   #存隊列
    elif q.full():
        print('queue not size')

que = queue.Queue(5)   #允許5個隊列的隊列對象
for i in range(5):
    show(que,i)
print('queue is number:',que.qsize())  #隊列元素個數
for j in range(5):
    print(que.get())  #取隊列
print('......end')

後進先出隊列: 這個隊列則是,後進先出,也就是最後放入的數據最先彈出,類似於堆棧.

>>> import queue
>>>
>>> q = queue.LifoQueue()
>>>
>>> q.put("wang")
>>> q.put("rui")
>>> q.put("ni")
>>> q.put("hao")
>>>
>>> print(q.get())
hao
>>> print(q.get())
ni
>>> print(q.get())
rui
>>> print(q.get())
wang
>>> print(q.get())

優先順序隊列: 此類隊列,可以指定優先順序順序,預設從高到低排列,以此根據優先順序彈出數據.

>>> import queue
>>>
>>> q = queue.PriorityQueue()
>>>
>>> q.put((1,"python1"))
>>> q.put((-1,"python2"))
>>> q.put((10,"python3"))
>>> q.put((4,"python4"))
>>> q.put((98,"python5"))
>>>
>>> print(q.get())
(-1, 'python2')
>>> print(q.get())
(1, 'python1')
>>> print(q.get())
(4, 'python4')
>>> print(q.get())
(10, 'python3')
>>> print(q.get())
(98, 'python5')

雙向的隊列: 雙向隊列,也就是說可以分別從兩邊彈出數據,沒有任何限制.

>>> import queue
>>>
>>> q = queue.deque()
>>>
>>> q.append(1)
>>> q.append(2)
>>> q.append(3)
>>> q.append(4)
>>> q.append(5)
>>>
>>> q.appendleft(6)
>>>
>>> print(q.pop())
5
>>> print(q.pop())
4
>>> print(q.popleft())
6
>>> print(q.popleft())
1
>>> print(q.popleft())
2

生產者消費者模型: 生產者消費者模型,是各種開發場景中最常用的開發模式,以下是模擬的模型.

import queue,time
import threading
q = queue.Queue()

def productor(arg):
    while True:
        q.put(str(arg))
        print("%s 號視窗有票...."%str(arg))
        time.sleep(1)

def consumer(arg):
    while True:
        print("第 %s 人取 %s 號視窗票"%(str(arg),q.get()))
        time.sleep(1)

for i in range(10):                     #負責生產票數
    t = threading.Thread(target=productor,args=(i,))
    t.start()

for j in range(5):                      #負責取票,兩個用戶取票
    t = threading.Thread(target=consumer,args=(j,))
    t1 = threading.Thread(target=consumer,args=(j,))
    t.start()
    t1.start()

本文作者: 王瑞
本文鏈接: https://www.lyshark.com/post/1c1ebaa1.html
版權聲明: 本博客所有文章除特別聲明外,均採用 BY-NC-SA 許可協議。轉載請註明出處!

文章作者:lyshark (王瑞)
文章出處:https://www.cnblogs.com/LyShark/p/17624639.html
本博客所有文章除特別聲明外,均採用 BY-NC-SA 許可協議。轉載請註明出處!
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這是一個講解DDD落地的文章系列,作者是《實現領域驅動設計》的譯者滕雲。本文章系列以一個真實的並已成功上線的軟體項目——碼如雲(https://www.mryqr.com)為例,系統性地講解DDD在落地實施過程中的各種典型實踐,以及在面臨實際業務場景時的諸多取捨。 本系列包含以下文章: DDD入門( ...
  • ## 轉載放在最前 [一文帶你瞭解,虛擬記憶體、記憶體分頁、分段、段頁式記憶體管理](https://zhuanlan.zhihu.com/p/451736494)[[Golang三關-典藏版]一站式Golang記憶體洗髓經 | Go 技術論壇](https://learnku.com/articles/6 ...
  • 垃圾收集器 HotSpot虛擬機包含的所有收集器如圖3-5所示。圖3-5展示了7種作用於不同分代的收集器,如果兩個收集器之間存在連線,就說明它們可以搭配使用。 新生代收集器:Serial、ParNew、Parallel Scavenge,新生代收集器均採用複製演算法 老年代收集器:Serial Old ...
  • 基本環境準備(第一節)2023年8月9日16:37 1.安裝Node.js;Windows 上安裝 Node.js你可以採用以下兩種方式來安裝。1、Windows 安裝包(.msi)本文實例以 v0.10.26 版本為例,其他版本類似, 安裝步驟: 步驟 1 : 雙擊下載後的安裝包 v0.10.26 ...
  • 在一個需要用到flag作為信號控制代碼中一些代碼片段是否運行的,比如"--flag True"或者"--flag False"。 但是古怪的是無法傳入False,無論傳入True還是False,程式裡面都是True的參數,所以這個flag並沒有生效,也就失去了意義。 參考代碼: ```python ...
  • 在本篇文章中,會先介紹 Python 中對象的基礎概念,之後會提到對象的深淺拷貝以及區別。在閱讀後,應該掌握如下的內容: - 理解變數、引用和對象的關係 - 理解 Python 對象中 identity,type 和 value 的概念 - 什麼是 mutable 和 immutable 對象?以及 ...
  • # 《Rust編程之道》學習筆記一 ## 序 ### Rust語言的主要特點 - 系統級語言 - 無GC - 基於LLVM - 記憶體安全 - 強類型+靜態類型 - 混合編程範式 - 零成本抽象 - 線程安全 ### 程式員的快樂 何謂快樂?真正的快樂不僅僅是寫代碼時的“酸爽”,更應該是代碼部署到生產 ...
  • 項目工程中,集成資料庫實現對數據的增曬改查管理,是最基礎的能力,通常涉及三個基礎組件:連接池,持久層框架,數據源。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...