從迴圈說起 順序 , 分支 , 迴圈 是編程語言的三大邏輯結構,在Python中都得到了支持,而Python更是為迴圈結構提供了非常便利的語法: 剛從C語言轉入Python的同學可能傾向於寫索引下標式的迴圈,例如下麵的代碼像遍歷C中的數組一樣遍歷了一個Python中的列表: 但如果將列表(list) ...
從迴圈說起
順序,分支,迴圈是編程語言的三大邏輯結構,在Python中都得到了支持,而Python更是為迴圈結構提供了非常便利的語法:for ... in ...
剛從C語言轉入Python的同學可能傾向於寫索引下標式的迴圈,例如下麵的代碼像遍歷C中的數組一樣遍歷了一個Python中的列表:
>>> colors = ['black', 'white', 'red', 'blue']
>>> for i in range(len(colors)):
... print(colors[i])
...
black
white
red
blue
但如果將列表(list)替換為集合(set),這個方法就不奏效了:
>>> colors = set(['black', 'white', 'red', 'blue'])
>>> for i in range(len(colors)):
... print(colors[i])
...
Traceback (most recent call last):
File "<stdin>", line 2, in <module>
TypeError: 'set' object does not support indexing
這是因為set不像list,string,tuple這些結構,其中的元素從邏輯上講本身是沒有序的,與之類似的還有dict,因而Python在設計set這個內置數據結構時,並沒有實現其下標索引。但遍歷集合這個操作本身是合理並且常見的,我們可以如下實現對集合的遍歷:
>>> colors = set(['black', 'white', 'red', 'blue'])
>>> for color in colors:
... print(color)
...
red
blue
black
white
至於元素輸出的順序為何是這樣,這與set的具體實現有關,不在本文的討論範圍內,本文要探究的是,這種for...in...
迴圈到底是如何運作的。
輪到你出場了,迭代器
想知道for迴圈的運作模式,首先要介紹迭代器(iterator)的概念。迭代器並不是Python獨有的概念,事實上,在C++,Java等其他語言中,都可以看到迭代器的身影,站在更高的角度,迭代器不是一個語言特性,而是一種設計模式,它提升了語言的抽象能力和代碼的服用,減少程式員的心智負擔。為證明這一點,下麵我們就以Python中的迭代器進行說明。
在Python中,迭代器泛指一類實現了迭代器協議的對象,具體來說,任何實現了__next__
函數的對象都是迭代器,該函數可以通過Python的內置函數next
進行調用,該函數的邏輯應該返回數據結構中的下一個迭代對象或拋出StopIteration
異常。以下代碼是列表迭代器的一個示例,我們暫時不關心該列表迭代器是怎麼來的。
>>> colors = ['black', 'white', 'red', 'blue']
>>> color_iterator = iter(colors)
>>> next(color_iterator)
'black'
>>> next(color_iterator)
'white'
>>> next(color_iterator)
'red'
>>> next(color_iterator)
'blue'
>>> next(color_iterator)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration
可以看到,每次對迭代器調用next
函數,迭代器或返回應被迭代的下一個對象,或拋出一個StopIteration
異常,上層的調用者可通過捕獲該異常得知迭代已經結束。
他來了,可迭代對象
可迭代對象(Iterable)是另一個重要概念,顧名思義,它應該泛指滿足可以被迭代,即擁有迭代器的一類對象。在Python的迭代器協議里,任何實現了__iter__
函數的對象都是可迭代對象,該函數可以通過Python的內置函數iter
調用,該函數邏輯上應該返回一個迭代器對象,即返回一個實現了__next__
函數的對象。我們還是以列表作為例子。
>>> colors = ['black', 'white', 'red', 'blue']
>>> type(colors)
<class 'list'>
>>> color_iterator = iter(colors)
>>> type(color_iterator)
<class 'list_iterator'>
可以看到,colors
和color_iterator
是兩個不同的對象,後者是前者的__iter__
函數返回的一個新對象。
為什麼要這麼複雜?
你可能已經在問了,為什麼要制定這麼複雜的所謂協議?是的,對於每一個類來說,按照規定實現__next__
和__iter__
方法聽上去很麻煩。但是,當很多類都遵循這個協議麻煩一點的時候,對於調用者而言,事情開始變得簡單。換句話說,當所有邏輯上可以被迭代的對象都告訴你,”我已經按照迭代器協議實現了協議里要求的方法“,作為調用者,你不必再關心他們怎麼實現的,你可以用一個統一的方式去迭代他們,無論這是一個列表,一個字元串,一個集合,還是一個字典。
事實上,for...in...
就是這麼做的。
揭秘for迴圈
Python的for...in...
迴圈實際上等價於以下代碼
colors = ['black', 'white', 'red', 'blue']
for color in colors:
print(color)
# 等價於
color_iterator = iter(colors)
while True:
try:
color = next(color_iterator)
print(color)
except StopIteration:
break
當我們毫無顧忌地對列表/字元串/集合/字典/...各式各樣的數據結構for...in...
時,Python並不是像魔法師一樣天然地知道這些對象該怎麼去遍歷,而是按部就班地用iter
取出迭代器,用next
取出下一個迭代對象,如果捕獲StopIteration
,就停止迭代。所以,這些功勞來自於這些對象嚴格地遵從了迭代器協議。
自己實現一個可迭代對象
當我們自定義類時,是不是也應該考慮調用者的感受?下麵我們就自己實現一個符合迭代器協議的類。
class MyIterable():
def __init__(self):
self.data = ['I', 'love', 'python']
def __iter__(self):
self.index = 0
return self
def __next__(self):
if self.index < len(self.data):
ret = self.data[self.index]
self.index += 1
return ret
else:
raise StopIteration
a = MyIterable()
for x in a:
print(x)
'''
執行結果:
I
love
Python
'''
解釋一下:MyIterable
的數據存放在成員變數data
中,即實現了__next__
的方法,所以本身就是一個迭代器,因而它的__iter__
只需要返回self
,但在返回之前,將成員變數index
歸0,意味著從頭開始迭代。在__next__
中,如果index
比元素總數少,則返回該下標索引的數據,並使得索引自增,否則就拋出StopIteration
表示迭代結束。
可以看到,在調用者看來,MyIterable
的數據內部是如何存放的,一共有多少數據,該怎麼訪問他們,這些都不用關心,只要MyIterable
老老實實地遵守了迭代器協議,一句for...in...
就能進行遍歷。
總結
我們通過深入解析Pyhton中for
迴圈的工作機制,接觸了迭代器,可迭代對象這些Python中乃至通用編程中重要的概念。可以說,迭代器具體來說是語言所規定的一種協議,一個具體的對象實現了協議所規定的介面後,就能讓自己看上去是一個迭代器,使用者使用起來也只需要按照介面去使用,減少了心智負擔;更抽象來說,迭代器是一種設計模式,對於遍歷這種編程中非常常用的操作,通過指定某種模式和規則,讓代碼的開發和調用都變得更加規範,更加方便。
迭代器在Python中的使用當然不止for
迴圈這麼簡單,在生成器等更高級的語法糖中,迭代器也扮演至關重要的角色,歡迎大家持續關註!
獲取最新文章更新,歡迎關註我的個人公眾號:StackOverflow Daily