本文首發於公眾號:Hunter後端 原文鏈接:Python面試必備一之迭代器、生成器、淺拷貝、深拷貝 這一篇筆記主要介紹 Python 面試過程中常被問到的一些問題,比如: Python 中的迭代器和生成器是什麼,有什麼作用 Python 中不可變類型有哪些 在 Python 函數中,傳遞參數傳遞的 ...
本文首發於公眾號:Hunter後端
這一篇筆記主要介紹 Python 面試過程中常被問到的一些問題,比如:
- Python 中的迭代器和生成器是什麼,有什麼作用
- Python 中不可變類型有哪些
- 在 Python 函數中,傳遞參數傳遞的是什麼,值還是引用
- 將一個列表或者字典傳入函數,在函數內部對其進行修改,會影響函數外部的該變數嗎
- Python 中的深拷貝和淺拷貝是什麼,怎麼用,區別是什麼
針對以上問題,本篇筆記將詳細闡述其原理,並用示例來對其進行解釋,本篇筆記目錄如下:
- 迭代器
- 生成器
- Python 中的可變與不可變類型
- Python 的函數參數傳遞
- 淺拷貝、深拷貝
1、迭代器
1. 迭代
在 Python 中,對於列表(list)、元組(tuple)、集合(set)等對象,我們可以通過 for 迴圈的方式拿到其中的元素,這個過程就是迭代。
2. 可迭代對象
在 Python 里,所有的數據都是對象,其中,可以實現迭代操作的數據就稱其為可迭代對象。
比如前面介紹的列表,元組,集合,字元串,字典都是可迭代對象。
如果要判斷一個對象是否是可迭代對象,可以通過與 typing.Iterable 來進行比較:
from typing import Iterable
print(isinstance([1, 2, 3], Iterable)) # True
print(isinstance((1, 2, 3), Iterable)) # True
print(isinstance({1, 2, 3}, Iterable)) # True
print(isinstance({"a": 1, "b": 2}, Iterable)) # True
print(isinstance("asdsad", Iterable)) # True
3. 迭代器
我們可以將一個可迭代對象轉換成迭代器,所謂迭代器,就是內部含有 __iter__
和 __next__
方法的對象,它可以記住遍歷位置,不會像列表那樣一次性全部載入。
迭代器有什麼好處呢,正如前面所言,因為不用一次性全部載入對象,所以可以節約記憶體,我們可以通過 next() 方法來逐個訪問對象中的元素。
我們可以使用 iter() 方法來將一個可迭代對象轉換成迭代器。
1) 創建迭代器
我們可以通過 iter() 函數來將可迭代對象轉換成迭代器:
s = [1, 2, 3]
s_2 = iter(s)
2) 判斷對象是否是迭代器
迭代器的類型是 typing.Iterator,我們可以通過 isinstance() 函數來進行判斷。
註意: 這裡進行測試的 Python 版本是 3.11,所以需要從 typing 中載入 Iterator,如果是之前的某個版本,應該從 collections 模塊中載入。
from typing import Iterator
isinstance(s, Iterator) # False
isinstance(s_2, Iterator) # True
3) 訪問迭代器
我們可以通過 next() 函數來訪問迭代器:
s = [1, 2, 3]
s_2 = iter(s)
next(s_2) # 1
next(s_2) # 2
next(s_2) # 3
next(s_2) # raise StopIteration
訪問迭代器的時候需要註意下,如果使用 next() 函數訪問到對象的末尾還接著訪問的話,會引發 StopIteration 的異常。
我們可以通過 try-except 的方式來捕獲:
s = [1, 2, 3]
s_2 = iter(s)
while True:
try:
print(next(s_2))
except StopIteration:
print("訪問結束")
break
2、生成器
生成器也是一種迭代器,它也可以使用 next() 方法逐個訪問生成器中的元素,並且能夠實現惰性計算,延遲執行以達到節省記憶體的目的。
1. 生成器的創建
可以使用兩種方式創建生成器,一種是使用小括弧 ()
操作列表生成式,一種是使用 yield
來修飾。
1) 使用列表生成式創建生成器
x = (i for i in range(10))
print(type(x)) # generator
前面介紹了生成器也是一種迭代器,下麵可以進行驗證操作:
from typing import Iterator
print(isinstance(x, Iterator)) # True
而生成器本身的類型為 Generator,也可以通過 typing 模塊引入:
from typing import Generator
print(isinstance(x, Generator)) # True
2) 使用 yield 欄位創建生成器
如果要使用 yield 來創建生成器,則需要將其放置在函數內,以下是一個示例:
def test_yield(n):
for i in range(n):
yield i
x = test_yield(8)
print(type(x)) # <class 'generator'>
print(next(x)) # 0
在這裡,yield 相當於 return 一個值,並且記住這個位置,在下次迭代時,代碼從 yield 的下一條語句開始執行。
2. 生成器的使用
前面介紹了生成器就是一種迭代器,所以可以使用迭代器的方式來訪問生成器,比如 for 迴圈,next() 方法等。
3. 生成器的應用示例
下麵介紹兩個運用生成器的實例,一個是用於斐波那契數列,一個是按行讀取文件。
1) 斐波那契數列
使用生成器來操作斐波那契數列,其函數操作如下:
def fibonacci(max_number):
n, a, b = 0, 0, 1
while n < max_number:
yield b
a, b = b, a + b
n += 1
for i in fibonacci(6):
print(i)
2) 讀取文件
如果有一個大文件,我們也可以使用生成器的方式來逐行讀取文件:
def read_file(path):
with open(path, "r", encoding="utf-8") as f:
for line in f:
yield line
path = "path/to/file"
for line in read_file(path):
print(line.strip())
4. 迭代器與生成器的異同
首先,生成器本身就是一個迭代器,所以生成器具有迭代器的所有優點,比如不用一次性載入全部對象,節約記憶體。
不同點在於兩者的創建方式是不一樣的,而且使用 yield 構成生成器的應用程度是更廣泛的。
3、Python 中的可變與不可變類型
首先,Python 中數據類型的可變與不可變的定義為當我們修改了它的值後它對應的記憶體地址是否變化。
如果一個數據類型,它的值修更改後,它的記憶體地址發生了改變,那麼我們稱其為不可變類型。
相反,如果我們修改某個數據類型的值後,記憶體地址沒有發生變化,那麼則稱其為可變類型。
我們可以這樣理解,對於同一個記憶體地址而言,如果可以修改變數的值,那麼它就是可變類型,否則是不可變類型。
1. 不可變類型
Python 中不可變的數據類型有 int、string、tuple、bool 等,示例如下:
s = 1
print(id(s)) # 140713862796072
s = 2
print(id(s)) # 140713862796104
上面的兩次輸出可以看到 s 這個變數的記憶體地址在值修改後就變化了。
2. 可變類型
Python 中可變的數據類型有 list、set、dict,這些數據類型在修改原值後,其記憶體地址不變,因此屬於可變類型。
s = [1,2,3]
print(id(s)) # 2116182318592
s.append(4)
print(id(s)) # 2116182318592
4、Python 的函數參數傳遞
這裡的問題其實是在 Python 中,我們往函數里傳參數時,是值傳遞還是引用傳遞。
所謂的值傳遞,就是把參數的值做一個拷貝,把拷貝的值傳到函數內。
所謂的引用傳遞,就是把參數的記憶體地址直接傳到函數內。
那麼在 Python 里,函數的傳參到底是哪一種呢,我們可以來做個實驗:
def test(a):
print(id(a))
a = 1
print(id(a)) # 140713862796072
test(a) # 140713862796072
a = [1, 2, 3]
print(id(a)) # 2116183414208
test(a) # 2116183414208
可以看到,不管是不可變類型還是可變類型,我們傳入函數內部的變數的記憶體地址和外部變數的記憶體地址都是一樣的,因此,在 Python 中,函數的傳參都是傳遞的變數的引用,即變數的記憶體地址。
可變類型與不可變類型的區別
這裡需要註意的一點,對於可變類型和不可變類型,當我們在函數內對其修改後,其是否會影響到外部變數呢,我們還是可以接著做一個測試,這裡對於兩種類型分別進行測試。
先做不可變類型的測試:
def test_1(a):
print(f"函數內部修改前,a 的地址為: {id(a)}")
a = 2
print(f"函數內部修改後,a 的地址為: {id(a)}")
a = 1
print(f"調用函數前,a 的地址為:{id(a)}")
test_1(a)
print(f"函數外 a 的值是:{a},地址為:{id(a)}")
這裡輸出的信息如下:
調用函數前,a 的地址為:140713862796072
函數內部修改前,a 的地址為: 140713862796072
函數內部修改後,a 的地址為: 140713862796104
函數外 a 的值是:1,地址為:140713862796072
在這裡可以看到,雖然函數傳參傳入的是變數的引用,即記憶體地址,但因為它是不可變類型,所以對其修改後,函數內部相當於是對其重新申請了一個記憶體地址進行操作,但是不會影響函數外部原有的記憶體地址。
接下來測試一下可變數據類型:
def test_2(l):
print(f"函數內部修改前,l 的地址為: {id(l)}")
l.append(3)
print(f"函數內部修改後,l 的地址為: {id(l)}")
l = [1, 2]
print(f"調用函數前,l 的地址為:{id(l)}")
test_2(l)
print(f"函數外 l 的值是:{l},地址為:{id(l)}")
其輸出的信息如下:
調用函數前,l 的地址為:2116196122176
函數內部修改前,l 的地址為: 2116196122176
函數內部修改後,l 的地址為: 2116196122176
函數外 l 的值是:[1, 2, 3],地址為:2116196122176
這裡可以看到,函數內外 l 變數的地址都是不變的,但因為是可變類型,所以在函數內部修改了變數的值以後,並沒有重新分配記憶體,所以在函數外部 l 變數同步被影響。
那麼在函數內部對傳入的可變類型變數進行任何操作都會影響到函數外部嗎?
不一定,這裡提供一個示例:
def test_3(l):
print(f"修改變數前,l 的地址為:{id(l)}")
l = l + [3]
print(f"修改變數後,l 的地址為:{id(l)}")
l = [1, 2]
print(f"調用函數前,l 的地址為:{id(l)}, 值為:{l}")
test_3(l)
print(f"調用函數後,l 的地址為:{id(l)},值為:{l}")
它的輸出的信息如下:
調用函數前,l 的地址為:2116183414208, 值為:[1, 2]
修改變數前,l 的地址為:2116183414208
修改變數後,l 的地址為:2116200373376
調用函數後,l 的地址為:2116183414208,值為:[1, 2]
可以看到,在函數內部,對可變類型進行了操作之後,它的記憶體地址有所變化,而且修改後不會影響到原始變數。
這是因為在函數內部執行的操作是 l = l + [3]
,這個操作的本質並不是直接對變數的值進行修改,而是新建一個記憶體地址,然後對這個變數進行重新賦值,所以這個操作的 l 與函數傳入的變數 l 已經不是同一個變數了,因此不會影響到外部的變數。
多說一句,可變類型變數的這個操作其實就跟不可變類型的變數的重新賦值是同一個意義:
a = 1
a = 2
這裡其實也是因為對 a 進行了新的記憶體空間申請,然後重新賦值。
5、淺拷貝、深拷貝
1. 概念
在 Python 中,如果是不可變對象,比如 string,int 等,變數間的拷貝效果都是一致的,都會重新獲取一個記憶體地址,重新賦值,拷貝前後兩個變數不再相關。
而如果是可變對象,比如 list,set,dict 等,就需要區分淺拷貝和深拷貝。
淺拷貝的操作過程:為新變數重新分配記憶體地址,新變數的元素與原始變數的元素地址還是一致的。
但是如果原始變數的元素是不可變類型,那麼修改原始變數或新變數的元素之後,不會引起兩個變數的同步變化。
如果修改的是變數元素的可變類型,而可變類型進行修改後,其記憶體地址不會變的,則會引起兩個變數的同步變化。
深拷貝的操作過程:為新變數重新分配記憶體地址,創建一個對象,如果原始變數的元素中有嵌套的可變類型,那麼則會遞歸的將其中的全部元素都拷貝到新變數,拷貝過程結束之後,新變數與原始變數沒有任何關聯,只是簡單的值相等而已。
上面這兩個概念可能聽起來比較繞,接下來我們用示例來對其進行展示。
2. 淺拷貝
1) 元素為不可變類型
淺拷貝的操作使用 copy 模塊,引入和使用如下:
import copy
l1 = [1, 2, 3]
l2 = copy.copy(l1)
這裡使用元素為不可變類型的 dict 進行示例展示:
d1 = {"a": 1, "b": 2}
d2 = copy.copy(d1)
print(f"d1 的地址為:{id(d1)}")
print(f"d2 的地址為:{id(d2)}")
print(f"d1 a 的地址為:{id(d1['a'])}")
print(f"d2 a 的地址為:{id(d2['a'])}")
它的信息輸出如下:
d1 的地址為:2116196027264
d2 的地址為:2116200318400
d1 a 的地址為:140713862796072
d2 a 的地址為:140713862796072
可以看到,進行淺拷貝後,兩個變數的記憶體地址是不一樣的,但是內部的元素的地址都還是一樣的。
而如果對其元素的值進行更改,因為元素是不可變類型,所以更改之後其內部元素的地址也會不一樣:
d2["a"] = "2"
print(f"d1 的值為:{d1}")
print(f"d2 的值為:{d2}")
print(f"d1 a 元素的地址為:{id(d1['a'])}")
print(f"d2 a 元素的地址為:{id(d2['a'])}")
其輸出的內容如下:
d1 的值為:{'a': 1, 'b': 2}
d2 的值為:{'a': '2', 'b': 2}
d1 a 元素的地址為:140713862796072
d2 a 元素的地址為:140713862839480
2) 元素為可變類型
當需要拷貝的可變對象的元素也是可變類型的時候,比如,列表內嵌套了列表或者字典,或者字典內嵌套了列表或者字典,以及集合的相關嵌套,對其進行淺拷貝後,因其嵌套的元素是可變類型的,所以在對內部元素進行修改後,元素的記憶體地址還是會指向同一個,所以對外展示的影響就是,原始變數和新變數會同步更新數據。
接下來我們以字典內嵌套列表為例進行示例展示:
d1 = {"a": 1, "b": [1, 2]}
d2 = copy.copy(d1)
print(f"d1 的地址為:{id(d1)}, d1 的 b 元素的地址為:{id(d1['b'])}")
print(f"d2 的地址為:{id(d2)}, d2 的 b 元素的地址為:{id(d2['b'])}")
其輸出內容如下:
d1 的地址為:2116201415808, d1 的 b 元素的地址為:2116195489024
d2 的地址為:2116183354816, d2 的 b 元素的地址為:2116195489024
這裡可以看到 d1 和 d2 的記憶體地址是不一樣的,但是內部的 b 元素的記憶體地址一致。
接下來我們對 d2 的 b 列表進行修改,再來看一看兩者的地址和 d1 以及 d2 的值:
d2["b"].append(3)
print(f"d1 的值為:{d1}, d1 的 b 元素的地址為:{id(d1['b'])}")
print(f"d2 的值為:{d2}, d2 的 b 元素的地址為:{id(d2['b'])}")
其輸出內容如下:
d1 的值為:{'a': 1, 'b': [1, 2, 3]}, d1 的 b 元素的地址為:2116195489024
d2 的值為:{'a': 1, 'b': [1, 2, 3]}, d2 的 b 元素的地址為:2116195489024
可以看到,對 d2 修改 b 元素的值後,也同步反映到了 d1 上。
總結: 綜上,可以看到,在淺拷貝中,如果元素是不可變對象,那麼修改原始變數或新變數後,不會引起兩者的同步變化,如果元素是可變對象,那麼修改原始變數或者新變數後,則會引起兩者的同步變化。
3. 深拷貝
相對於淺拷貝而言,深拷貝的操作要簡單許多,不管元素是可變對象還是不可變對象,進行深拷貝後,原始變數和新變數從外到內都是不一樣的記憶體空間,而且修改任意一個都不會引起同步變化。
代碼示例如下:
import copy
d1 = {"a": 1, "b": [1, 2]}
d2 = copy.deepcopy(d1)
d2["b"].append(3)
print(f"d1 的值為:{d1},d1 的 b 元素地址為:{id(d1['b'])}")
print(f"d2 的值為:{d2},d2 的 b 元素地址為:{id(d2['b'])}")
其輸出內容如下:
d1 的值為:{'a': 1, 'b': [1, 2]},d1 的 b 元素地址為:2116199853248
d2 的值為:{'a': 1, 'b': [1, 2, 3]},d2 的 b 元素地址為:2116199512896
根據輸出可以看到,它的內容是符合我們前面對其的解釋的。
4. 總結
一般來說,如果沒有特殊需求,不需要原始變數與新變數之間有所關聯的話,建議使用深拷貝,因為淺拷貝的內部元素的關聯性,在實際編程中很容易造成數據混亂。
以上就是本次 Python 面試知識的全部內容,下一篇將介紹 Python 中的 lambda 表達式、函數傳參 args 和 kwargs 以及垃圾回收機制等。
如果想獲取更多後端相關文章,可掃碼關註閱讀: