堵車節第一天,我沒有出門。把以前一直只限於知道,卻不清晰理解的這幾個概念完完整整地梳理了一番。內容參考自wiki頁面,然後加上自己一些理解。 詞法作用域和動態作用域 不管什麼語言,我們總要學習作用域(或生命周期)的概念,比如常見的稱呼:全局變數、包變數、模塊變數、本地變數、局部變數等等。不管如何稱呼 ...
堵車節第一天,我沒有出門。把以前一直只限於知道,卻不清晰理解的這幾個概念完完整整地梳理了一番。內容參考自wiki頁面,然後加上自己一些理解。
詞法作用域和動態作用域
不管什麼語言,我們總要學習作用域(或生命周期)的概念,比如常見的稱呼:全局變數、包變數、模塊變數、本地變數、局部變數等等。不管如何稱呼這些作用域的範圍,實現它們的目的都一樣:
- (1)為了避免名稱衝突;
- (2)為了限定變數的生命周期(本文以變數名說事,其它的名稱在規則上是一樣的)。
但是不同語言的作用域規則不一樣,雖然學個簡單的基礎就足夠應用,因為我們有編程規範:(1)儘量避免名稱衝突;(2)加上類似於local的修飾符儘量縮小生效範圍;(3)放進代碼塊,等等。但是真正去細心驗證作用域的生效機制卻並非易事(我學Python的時候,花了很長時間細細驗證,學perl的時候又花了很長時間細細驗證),但可以肯定的是,理解本文的詞法作用域規則(Lexical scoping)和動態作用域規則(dynamic scoping),對學習任何語言的作用域規則都有很大幫助,這兩個規則是各種語言都巨集觀通用的。
很簡單的一段bash下的代碼:
x=1
function g(){ echo "g: $x" ; x=2; }
function f(){ local x=3 ; g; echo "f: $x"; } # 輸出2還是3
f # 輸出1還是3?
echo $x # 輸出1還是2?
對於bash來說,上面輸出的分別是3(g函數中echo)、2(f函數中的echo)和1(最後一行echo)。但是同樣語義的代碼在其它語言下得到的結果可能就不一樣(分別輸出1、3和2,例如perl中將local替換為my)。
這牽扯到兩種貫穿所有程式語言的作用域概念:詞法作用域(類似於C語言中static)和動態作用域。詞法作用域和"詞法"這個詞真的沒什麼關係,反而更應該稱之為"文本段作用域"。要區別它們,只需要回答"函數out_func中嵌套的內層函數in_func能否看見out_func中的環境"。
對於上面的bash代碼來說,假如這段代碼是適用於所有語言的偽代碼:
- 對於詞法作用域的語言,執行f時會調用g,g將無法訪問f文本段的變數,詞法作用域認為g並不是f的一部分,而是跳出f的,因為g的定義文本段是在全局範圍內的,所以它是全局文本段的一部分。如果函數g的定義文本段是在f內部,則g屬於f文本段的一部分。
- 所以g不知道f文本段中
local x=3
的設置,於是g的echo會輸出全局變數x=1
,然後設置x=2
,因為它沒有加上作用域修飾符,而g又是全局內的函數,所以x將修改全局作用域的x值,使得最後的echo輸出2,而f中的echo則輸出它自己文本段中的local x=3。所以整個流程輸出1 3 2
- 所以g不知道f文本段中
- 對於動態作用域的語言,執行f時會調用g,g將可以訪問f文本中的變數,動態作用域認為g是f文本段的一部分,是f中的嵌套函數。
- 所以g能看到
local x=3
的設置,所以g的echo會輸出3。g中設置x=2後,僅僅只是在f的內層嵌套函數中設置,所以x=2對g文本段和f文本段(因為g是f的一部分)都可見,但對f文本段外部不可見,所以f中的echo輸出2,最後一行的echo輸出1。所以整個流程輸出3 2 1
- 所以g能看到
- 總結來說:
- 詞法作用域是關聯在編譯期間的,對於函數來說就是函數的定義文本段的位置決定這個函數所屬的範圍。
- 動態作用域是關聯在程式執行期間的,對於函數來說就時函數執行的位置決定這個函數所屬的範圍。
- 詞法作用域是關聯在編譯期間的,對於函數來說就是函數的定義文本段的位置決定這個函數所屬的範圍。
由於bash實現的是動態作用域規則。所以,輸出的是3 2 1
。對於perl來說,my修飾符實現詞法作用域規則,local修飾符實現動態作用域規則。
例如,使用my修飾符的perl程式:
#!/usr/bin/perl
$x=1;
sub g { print "g: $x\n"; $x=2; }
sub f { my $x=3; g(); print "f: $x\n"; } # 詞法作用域
f();
print "$x\n";
執行結果:
[fairy@fairy:/perlapp]$ perl scope2.pl
g: 1
f: 3
2
使用local修飾符的perl程式:
#!/usr/bin/perl
$x=1;
sub g { print "g: $x\n"; $x=2; }
sub f { local $x=3; g(); print "f: $x\n"; } # 動態作用域
f();
print "$x\n";
執行結果:
[fairy@fairy:/perlapp]$ perl scope2.pl
g: 3
f: 2
1
有些語言只支持一種作用域規則,特別是那些比較現代化的語言,而有些語言支持兩種作用域規則(正如perl語言,my實現詞法變數作用域規則,local實現動態作用域規則)。相對來說,詞法作用域規則比較好控制整個流程,還能藉此實現更豐富的功能(如最典型的"閉包"以及高階函數),而動態作用域由於讓變數生命周期"沒有任何深度"(回想一下shell腳本對函數和作用域的控制,非常傻瓜化),比較少應用上,甚至有些語言根本不支持動態作用域。
閉包和回調函數
理解閉包、回調函數不可不知的術語
1.引用(reference):數據對象和它們的名稱
前文所說的可見、不可見、變數是否存在等概念,都是針對變數名(或其它名稱,如函數名、列表名、hash名)而言的,和變數的值無關。名稱和值的關係是引用(或指向)關係,賦值的行為就是將值所在的數據對象的引用(指針)交給名稱,讓名稱指向這個記憶體中的這個數據值對象。如下圖:
2.一級函數(first-class functions)和高階函數(high-order functions)
有些語言認為函數就是一種類型,稱之為函數類型,就像變數一樣。這種類型的語言可以:
- 將函數賦值給某個變數,那麼這個變數就是這個函數體的另一個引用,就像是第二個函數名稱一樣。通過這個函數引用變數,可以找到函數體,然後調用執行。
- 例如perl中
$ref_func=\&myfunc
表示將函數myfunc的引用賦值給$ref_func
,那麼$ref_func
也指向這個函數。
- 例如perl中
- 將函數作為另一個函數的參數。例如兩個函數名為myfunc和func1,那麼
myfunc(func1)
就將func1作為myfunc的參數。- 這種行為一般用於myfunc函數中對滿足某些邏輯的東西執行func1函數。
- 舉個簡單的例子,unix下的find命令,將find看作是一個函數,它用於查找指定路徑下符合條件的文件名,將
-print
、-exec {}\;
選項實現的功能看作是其它的函數(請無視它是否真的是函數),這些選項對應的函數是find函數的參數,每當find函數找到符合條件的文件名時,就執行-print
函數輸出這個文件名
- 這種行為一般用於myfunc函數中對滿足某些邏輯的東西執行func1函數。
- 函數的返回值也可以是另一個函數。例如myfunc函數的定義語句為
function myfunc(){ ...return func1 }
。
其實,實現上面三種功能的函數稱之為一級函數或高階函數,其中高階函數至少要實現上面的2和3。一級函數和高階函數並沒有區分的必要,但如果一定要區分,那麼:
- 一級函數更像是一種術語概念,它將函數當作一種值看待,可以將其賦值出去、作為參數傳遞出去以及作為返回值,對於電腦程式語言而言,它更多的是用來描述某種語言是否支持一級函數;
- 高階函數是一種函數類型,就像回調函數一樣,當某個函數符合高階函數的特性,就可以將其稱之為這是一個高階函數。
3.自由變數(free variable)和約束變數(bound variable)
這是一組數學界的術語。
在電腦程式語言中,自由變數是指函數中的一種特殊變數,這種變數既不在本函數中定義,也不是本函數的參數。換句話說,可能是外層函數中定義的但卻在內層函數中使用的,所以自由變數常常和"非本地變數"(non-local variable,熟悉Python的人肯定知道)互用。例如:
function func1(x){
var z;
function func2(y){
return x+y+z # x和z既不是func2內部定義的,也不是func2的參數,所以x和z都是自由變數
}
return func1
}
自由變數和約束變數對應。所謂約束變數,是指這個變數之前是自由變數,但之後會對它進行賦值,將自由變數綁定到一個值上之後,這個變數就成為約束變數或者稱為綁定變數。
例如:
function func1(x){
var m=20 # 對func2來說,這是自由變數,對其賦值,所以m變成了bound variable
var z
function func2(y){
z=10 # 對自由變數z賦值,z變成bound variable
return m+x+y+z # m、x和z都是自由變數
}
return func1
}
ref_func=func1(3) # 對x賦值,x變成bound variable
回調函數
回調函數一開始是C裡面的概念,它表示的是一個函數:
- 可以訪問另一個函數
- 當這個函數執行完了,會執行另一個函數
也就是說,將一個函數(B)作為參數傳遞給另一個函數(A),但A執行完後,再自動調用B。所以這種回調函數的概念也稱為"call after"。
但是現在回調函數已經足夠通用化了。通用化的回調函數定義為:將函數B作為另一個函數A的參數,執行到函數A中某個地方的時候去調用B。和原來的概念相比,不再是函數A結束後再調用,而是我們自己定義在哪個地方調用。
例如,Perl中的File::Find
模塊中的find函數,通過這個函數加上回調函數,可以實現和unix find命令相同的功能。例如,搜索某個目錄下的文件,然後print輸出這個文件名,即find /path xxx -print
。
#!/usr/bin/perl
use File::Find;
sub print_path { # 定義一個函數,用於輸出路徑名稱
print "$File::Find::name\n";
}
$callback = \&print_path; # 創建一個函數引用,名為$callback,所以perl是一種支持一級函數的語言
find( $callback,"/tmp" ); # 查找/tmp下的文件,每查找到一個文件,就執行一次$callback函數
這裡傳遞給find函數的$callback
就是一個回調函數。幾個關鍵點:
$callback
作為參數傳遞給另一個find()函數(所以find()函數是一個高階函數)
- 在find()函數中,每查找到一個文件,就調用一次這個
$callback
函數。當然,如果find是我們自己寫的程式,就可以由我們自己定義在什麼地方去調用$callback
$callback
不是我們主動調用的,而是由find()函數在某些情況下(每查找到一個文件)去調用的
回調就像對函數進行填空答題一樣,根據我們填入的內容去復用填入的函數從而實現某一方面的細節,而普通函數則是定義了就只能機械式地復用函數本身。
之所以稱為回調函數,是因為這個函數並非由我們主觀地、直接地去調用,而是將函數作為一個參數,通過被調用者間接去調用這個函數參數。本質上,回調函數和一般的函數沒有什麼區別,可能只是因為我們定義一個函數,卻從來沒有直接調用它,這一點感覺上有點奇怪,所以有人稱之為"回調函數",用來統稱這種間接的調用關係。
回調函數可以被多線程非同步執行。
徹底搞懂閉包
電腦中的閉包概念是從數學世界引入的,在電腦程式語言中,它也稱為詞法閉包、函數閉包。
閉包簡單的、通用的定義是指:函數引用一個詞法變數,在函數或語句塊結束後(變數的名稱消失),詞法變數仍然對引用它的函數有效。在下一節還有關於閉包更嚴格的定義(來自wiki)。
看一個python示例:函數f中嵌套了函數g,並返回函數g
def f(x):
def g(y):
return x + y
return g # 返回一個閉包:有名稱的函數(高階函數的特性)
# 將執行函數時返回的閉包函數賦值給變數(高階函數的特性)
a = f(1)
# 調用存儲在變數中閉包函數
print (a(5))
# 無需將閉包存儲進臨時變數,直接一次性調用閉包函數
print( f(1)(5) ) # f(1)是閉包函數,因為沒有將其賦值給變數,所以f(1)稱為"匿名閉包"
上面的a是一個閉包,它是函數g()的一個實例。f()的參數x可以被g訪問,在f()返回g函數後,f()就退出了,隨之消失的是變數名x(註意是變數名稱x,變數的值在這裡還不一定會消失)。當將閉包f(1)賦值給a後,原來x指向的數據對象(即數值1)仍被a指向的閉包函數引用著,所以x對應的值1在x消失後仍保存在記憶體中,只有當名為a的閉包被消除後,原來x指向的數值1才會消失。
閉包特性1:對於返回的每個閉包g()來說,不同的g()引用不同的x對應的數據對象。換句話說,變數x對應的數據對象對每個閉包來說都是相互獨立的
例如下麵得到兩個閉包,這兩個閉包中持有的自由變數雖然都引用相等的數值1,但兩個數值是不同數據對象,這兩個閉包也是相互獨立的:
a=f(1)
b=f(1)
閉包特性2:對於某個閉包函數來說,只要這不是一個匿名閉包,那麼閉包函數可以一直訪問x對應的數據對象,即使名稱x已經消失
但是
a=f(1) # 有名稱的閉包a,將一直引用數值對象1
a(3) # 調用閉包函數a,將返回1+3=4,其中1是被a引用著的對象,即使a(3)執行完了也不放開
a(3) # 再次調用函數a,將返回4,其中1和上面一條語句的1是同一個數據對象
f(1)(3) # 調用匿名的閉包函數,數據對象1在f(1)(3)執行完就消失
f(1)(3) # 調用匿名的閉包函數,和上面的匿名閉包是相互獨立的
最重要的特性就在於上面執行的兩次a(3):將詞法變數的生命周期延長,但卻足夠安全。
看下麵perl程式中的閉包函數,可以更直觀地看到結果。
sub how_many { # 定義函數
my $count=2; # 詞法變數$count
return sub {print ++$count,"\n"}; # 返回一個匿名函數,這是一個匿名閉包
}
$ref=how_many(); # 將閉包賦值給變數$ref
how_many()->(); # (1)調用匿名閉包:輸出3
how_many()->(); # (2)調用匿名閉包:輸出3
$ref->(); # (3)調用命名閉包:輸出3
$ref->(); # (4)再次調用命名閉包:輸出4
上面將閉包賦值給$ref
,通過$ref
去調用這個閉包,則即使how_many中的$count
在how_many()執行完就消失了,但$ref
指向的閉包函數仍然在引用這個變數,所以多次調用$ref
會不斷修改$count
的值,所以上面(3)和(4)先輸出3,然後輸出改變後的4。而上面(1)和(2)的輸出都是3,因為兩個how_many()函數返回的是獨立的匿名閉包,在語句執行完後數據對象3就消失了。
閉包更嚴格的定義
註意,嚴格定義的閉包和前面通俗定義的閉包結果上是不一樣的,通俗意義上的閉包並不一定符合嚴格意義上的閉包。
關於閉包更嚴格的定義,是一段誰都看不懂的說明(來自wiki)。如下,幾個關鍵詞我加粗顯示了,因為重要。
閉包是一種在支持一級函的編程語言中能夠將詞法作用域中的變數名稱進行綁定的技術。在操作上,閉包是一種用於保存函數和環境的記錄。這個環境記錄了一些關聯性的映射,將函數的每個自由變數與創建閉包時所綁定名稱的值或引用相關聯。通過閉包,就算是在作用域外部調用函數,也允許函數通過閉包拷貝他們的值或通過引用的方式去訪問那些已經被捕獲的變數。
我知道這段話誰都看不懂,所以簡而言之一下:一個函數實例和一個環境結合起來就是閉包。這個所謂的環境,決定了這個函數的特殊性,決定了閉包的特性。
還是上面的python示例:函數f中嵌套了函數g,並返回函數g
def f(x):
def g(y):
return x + y
return g # 返回一個閉包:有名稱的函數
# 將執行函數時返回的閉包函數賦值給變數
a = f(1)
上面的a是一個閉包,它是函數g()的一個實例。f()的參數x可以被g訪問,對於g()來說,這個x不是g()內部定義的,也不是g()的參數,所以這個x對於g來說是一個自由變數(free variable)。雖然g()中持有了自由變數,但是g()函數自身不是閉包函數,只有在g持有的自由變數x和傳遞給f()函數的x的值(即f(1)中的1)進行綁定的時候,才會從g()創建一個閉包函數,這表示閉包函數開始引用這個自由變數,並且這個閉包一直持有這個變數的引用,即使f()已經執行完畢了。然後在f()中return這個閉包函數,因為這個閉包函數綁定了(引用)自由變數x,這就是閉包函數所在的環境。
環境對閉包來說非常重要,是區別普通函數和閉包的關鍵。如果返回的每個閉包不是獨立持有屬於自己的自由變數,而是所有閉包都持有完全相同的自由變數,那麼閉包雖然仍可稱為閉包,但和普通函數卻沒有區別了。例如:
def f(x):
x=3
def g(y):
return x + y
return g
a = f(1)
b = f(3)
在上面的示例中,x雖然是自由變數,但卻在g()的定義之前就綁定了值(前文介紹過,它稱為bound variable),使得閉包a和閉包b持有的不再是自由變數,而是值對象完全相同的綁定變數,其值對象為3,a和b這個時候其實沒有任何區別(雖然它們是不同對象)。換句話說,有了閉包a就完全沒有必要再定義另一個功能上完全相同的閉包b。
在函數復用性的角度上來說,這裡的a和普通函數沒有任何區別,都只是簡單地復用了函數體。而真正嚴格意義上的閉包,除了復用函數體,還復用它所在的環境。
但是這樣一種情況,對於通俗定義的閉包來說,返回的g()也是一個閉包,但在嚴格定義的閉包中,這已經不算是閉包。
再看一個示例:將自由變數x放在g()函數定義文本段的後面。
def f(y):
return x+y
x=1
def g(z):
x=3
return f(z)
print(g(1)) # 輸出2,而不是4
首先要說明的是,python在沒有給任何作用域修飾符的時候實現的詞法作用域規則,所以上面return f(z)
中的f()看見的是全局變數x(因為f()定義在全局文本段中),而不是g()中的x=3。
回到閉包問題上。上面f()持有一個自由變數x,這個f(z)的文本定義段是在全局文本段中,它綁定的自由變數x是全局變數(聲明並初始化為空或0),但是這個變數之後賦值為1了。對於g()中返回的每個f()所在的環境來說,它持有的自由變數x一開始都是不確定的,但是後來都確定為1了。這種情況也不能稱之為閉包,因為閉包是在f()對自由變數進行綁定時創建的,而這個時候x已經是固定的值對象了。
回調函數、閉包和匿名函數
回調函數、閉包和匿名函數其實沒有必然的關係,但因為很多書上都將匿名函數和回調函數、閉包放在一起解釋,讓人誤以為回調函數、閉包需要通過匿名函數實現。實際上,匿名函數只是一個有函數定義文本段,卻沒有名稱的函數,而閉包則是一個函數的實例加上一個環境(嚴格意義上的定義)。
對於閉包和匿名函數來說,仍然以python為例:
def f(x):
def g(y):
return x + y
return g # 返回一個閉包:有名稱的函數
def h(x):
return lambda y: x + y # 返回一個閉包:匿名函數
# 將執行函數時返回的閉包函數賦值給變數
a = f(1)
b = h(1)
# 調用存儲在變數中閉包函數
print (a(5))
print (b(5))
對於回調函數和匿名函數來說,仍然以perl的find函數為例:
#!/usr/bin/perl
use File::Find;
$callback = sub {
print "$File::Find::name\n";
}; # 創建一個匿名函數以及它的引用
find( $callback,"/tmp" ); # 查找/tmp下的文件,每查找到一個文件,就執行一次$callback函數
匿名函數讓閉包的實現更簡潔,所以很多時候返回的閉包函數就是一個匿名函數實例。