平行運算 前言: 編寫Python程式時,我們可能會遭遇性能問題,即使優化了代碼,程式也依然有可能運行的很慢,從而無法滿足我們對執行速度的要求,目前的電腦,其cpu核心數越來越多,於是,我們可以考慮通過平行計算來提升性能,能不能把代碼的總計算量分配到多個獨立的任務之中,併在多個CPU核心上面同時運 ...
平行運算
前言:
編寫Python程式時,我們可能會遭遇性能問題,即使優化了代碼,程式也依然有可能運行的很慢,從而無法滿足我們對執行速度的要求,目前的電腦,其cpu核心數越來越多,於是,我們可以考慮通過平行計算來提升性能,能不能把代碼的總計算量分配到多個獨立的任務之中,併在多個CPU核心上面同時運行這些任務呢?
很遺憾,Python的全局解釋器鎖(GIL)使得我們沒有辦法用線程實現真正的平行計算,因此,上面那個想法行不通。另外一種常見的建議,是用C語言把程式中對性能要求較高的那部分代碼,改為擴展模塊,由於C語言更貼近硬體,所以運行的比Python快,一旦運行速度達到要求,我們自然就不用再考慮平行計算了,C語言擴展也可以啟動並並行地運行多個原聲線程,從而充分利用CPU的多個內核。Python中的C語言擴展API,有完備的文檔可供查閱,這使得它成為解決性能問題的一個好辦法。
但是,用C語言重寫代碼,是有很大代價的,短小而易讀的Python代碼,會變成冗長而費解的C代碼,在進行這樣的移植時,必須進行大量的測試,確保移植過程中沒有引入bug。然而問題在於:只把程式中的一小部分遷移到C,通常是不夠的。一般來說,Python程式之所以執行得比較慢,並不是某個主要因素單獨造成的,而是多個因素聯合導致的,所以,要想充分利用C語言的硬體和線程優勢,就必須把程式中的大量代碼移植到C,而這樣做,有大幅增加了測試量和風險。於是,我們應該思考一下:有沒有一種更好的方式,只需要使用較少的Python代碼,即可有效提升執行速度,並迅速解決複雜的計算問題。
我們可以試著通過內置的concurrent.futures模塊,來利用另外一個名叫multiprocessing的內置模塊,從而實現這種需求,該做法會以子進程的形式,平行地運行多個解釋器,從而令Python程式能夠利用多核心CPU提升執行速度,由於子進程與主解釋器相分離,所以它們的全局解釋器鎖也是相互獨立的,每個紫禁城都可以完整地利用一個CPU內核,而且這些自經常,都與主進程之間有著聯繫,通過這條聯繫渠道,紫禁城可以接收主進程發過來的指令,並把計算結果返回給主進程
程式運算:
編寫運算量很大的Python程式,查找兩數最大公約數,用三種不同的方式進行對比
① 單線程
代碼:
# 單線程 import time def gcd(pair): a,b = pair low = min(a,b) for i in range(low,0,-1): if a % i == 0 and b % i == 0: return i numbers = [(89937224,53452411),(97432894,43939284),(95938272,94910833), (7398473,47382942),(85938272,90493759)] start = time.time() results = list(map(gcd,numbers)) end = time.time() print('Took %.3f secondes'%(end-start))
執行結果:
Took 22.083 secondes
② 多線程
代碼:
# 多線程 import time from concurrent.futures import ThreadPoolExecutor def gcd(pair): a,b = pair low = min(a,b) for i in range(low,0,-1): if a % i == 0 and b % i == 0: return i numbers = [(89937224,53452411),(97432894,43939284),(95938272,94910833), (7398473,47382942),(85938272,90493759)] start = time.time() pool = ThreadPoolExecutor(max_workers=2) results = list(pool.map(gcd,numbers)) end = time.time() print('Took %.3f secondes'%(end-start))
執行結果:
Took 25.338 secondes
註:用多條Python現場來改善上述程式,是沒有效果的,因為全局解釋器鎖(GIL)使得Python無法在多個CPU核心上面平行地運行這些線程。線程啟動的時候,是有一定開銷的,與線程池進行通信,也會有開銷,所以上面這個程式運行的比單線程版本還要滿
③ 多進程(只能linux下運行)
我們只需要改動一行代碼,就可以提升整個程式的速度,把ThreadPoolExecutor換成concurrent.futures模塊里的ProcessPoolExecutor,程式的速度就上去了
代碼:
import time from concurrent.futures import ProcessPoolExecutor from multiprocessing import cpu_count def gcd(pair): a,b = pair low = min(a,b) for i in range(low,0,-1): if a % i == 0 and b % i == 0: return i numbers = [(89937224,53452411),(97432894,43939284),(95938272,94910833), (7398473,47382942),(85938272,90493759)] start = time.time() pool = ProcessPoolExecutor(max_workers=cpu_count()) # 四核 results = list(pool.map(gcd,numbers)) end = time.time() print('Took %.3f secondes'%(end-start))
執行結果:
Took 6.816 secondes
註:果然比前面兩個版本的程式執行速度快了很多
總結:
ProcessPoolExecutor類利用由multiprocessing模塊所提供的底層機制,來逐步完成下列操作:
- 把numbers列表中的每一項輸入數據都傳給map。
- 用pickle模塊對數據進行序列化,將其變成二進位形式。
- 通過本地套接字(local socket),將序列化之後的數據從主解釋器所在的進程,發到子解釋器所在的進程。
- 接下來,在子進程中,用pickle對二進位數據進行反序列化操作,將其還原為Python對象。
- 引入包含gcd函數的那個Python模塊。
- 各條子進程平行地針對各自的輸入數據,來運行gcd函數。
- 對運行結果進行序列化操作,將其轉變為位元組。
- 將這些位元組通過socket負責到主進程之中。
- 主進程對這些位元組執行反序列話操作,將其還原為Python對象。
- 最後,把每條子進程所求出的計算結果合併到一份列表之中,並返回給調用者
從編程者的角度看,上面的這些步驟,似乎是比較簡單的,但實際上,為了實現平行計算,mutiprocessing模塊和ProcessPoolExecutor類在幕後做了大量的工作,如果改用其他編程語言來寫,那麼開發者只需要用一把同步鎖或一項原子操作,就可以把線程之間的同學過程協調好,而在Python語言中,我們卻必須使用開銷較高的multiprocessing模塊,mutiproocessing的開銷之所以比較大,原因在於:主進程和子進程之間,必須進行序列化和反序列化操作,而程式中的大量開銷,正式由這些操作所引發的。
對於某些較為孤立,且數據利用率較高的任務來說,這套方案非常合適。所謂孤立,是指待運行的函數不需要與程式中的其他部分共用狀態。所謂利用率高,是指只需要在主進程和紫禁城之間傳遞一部分數據,就能完成大量的運算。本例中的最大公約數演算法,滿足這兩個條件,其他的一些類似數學演算法,也可以通過這套方案實現平行計算。