一、迭代器(iterator) 在Python中,for迴圈可以用於Python中的任何類型,包括列表、元祖等等,實際上,for迴圈可用於任何“可迭代對象”,這其實就是迭代器 迭代器是一個實現了迭代器協議的對象,Python中的迭代器協議就是有next方法的對象會前進到下一結果,而在一系列結果的末尾 ...
一、迭代器(iterator)
在Python中,for迴圈可以用於Python中的任何類型,包括列表、元祖等等,實際上,for迴圈可用於任何“可迭代對象”,這其實就是迭代器
迭代器是一個實現了迭代器協議的對象,Python中的迭代器協議就是有next方法的對象會前進到下一結果,而在一系列結果的末尾是,則會引發StopIteration。任何這類的對象在Python中都可以用for迴圈或其他遍歷工具迭代,迭代工具內部會在每次迭代時調用next方法,並且捕捉StopIteration異常來確定何時離開。
使用迭代器一個顯而易見的好處就是:每次只從對象中讀取一條數據,不會造成記憶體的過大開銷。
比如要逐行讀取一個文件的內容,利用readlines()方法,我們可以這麼寫:
1 |
for line in open("test.txt").readlines(): |
這樣雖然可以工作,但不是最好的方法。因為他實際上是把文件一次載入到記憶體中,然後逐行列印。當文件很大時,這個方法的記憶體開銷就很大了。
利用file的迭代器,我們可以這樣寫:
1 |
for line in open("test.txt"): #use file iterators |
這是最簡單也是運行速度最快的寫法,他並沒顯式的讀取文件,而是利用迭代器每次讀取下一行。
二、生成器(constructor)
生成器函數在Python中與迭代器協議的概念聯繫在一起。簡而言之,包含yield語句的函數會被特地編譯成生成器。當函數被調用時,他們返回一個生成器對象,這個對象支持迭代器介面。函數也許會有個return語句,但它的作用是用來yield產生值的。
不像一般的函數會生成值後退出,生成器函數在生成值後會自動掛起並暫停他們的執行和狀態,他的本地變數將保存狀態信息,這些信息在函數恢復時將再度有效
1 |
>>> def g(n): |
要瞭解他的運行原理,我們來用next方法看看:
1 |
>>> t = g(5) |
在運行完5次next之後,生成器拋出了一個StopIteration異常,迭代終止。
再來看一個yield的例子,用生成器生成一個Fibonacci數列:
1 |
def fab(max): |
看到這裡應該就能理解生成器那個很抽象的概念了吧~~
def read_file(fpath): BLOCK_SIZE = 1024 with open(fpath, 'rb') as f: while True: block = f.read(BLOCK_SIZE) if block: yield block else: return
如果直接對文件對象調用 read() 方法,會導致不可預測的記憶體占用。好的方法是利用固定長度的緩衝區來不斷讀取文件內容。通過 yield,我們不再需要編寫讀文件的迭代類,就可以輕鬆實現文件讀取。