Python進階:程式界的垃圾分類回收

-Advertisement-

垃圾回收是 Python 自帶的機制，用於自動釋放不會再用到的記憶體空間；什麼是記憶體泄漏呢？記憶體泄漏，並不是說你的記憶體出現了信息安全問題，被惡意程式利用了，而是指程式本身沒有設計好，導致程式未能釋放已不再使用的記憶體。記憶體泄漏也不是指你的記憶體在物理上消失了，而是意味著代碼在分配了某段記憶體後，因為設 ...

　　垃圾回收是 Python 自帶的機制，用於自動釋放不會再用到的記憶體空間；

什麼是記憶體泄漏呢？

記憶體泄漏，並不是說你的記憶體出現了信息安全問題，被惡意程式利用了，而是指程式本身沒有設計好，導致程式未能釋放已不再使用的記憶體。
記憶體泄漏也不是指你的記憶體在物理上消失了，而是意味著代碼在分配了某段記憶體後，因為設計錯誤，失去了對這段記憶體的控制，從而造成了記憶體的浪費。

計數引用

　　Python 中一切皆對象。當這個對象的引用計數（指針數）為 0 的時候，說明這個對象永不可達，自然它也就成為了垃圾，需要被回收。

　　例：

# 顯示當前 python 程式占用的記憶體大小
def show_memory_info(hint):
    pid = os.getpid()
    p = psutil.Process(pid)
    
    info = p.memory_full_info()
    memory = info.uss / 1024. / 1024
    print('{} memory used: {} MB'.format(hint, memory))

def func():
    show_memory_info('initial')
    a = [i for i in range(10000000)]
    show_memory_info('after a created')

func()
show_memory_info('finished')

########## 輸出 ##########

# initial memory used: 6.62890625 MB # after a created memory used: 199.33203125 MB # finished memory used: 7.6640625 MB

　　程式初始化時占的記憶體為6MB，接著創建了一個列表a，由於a還沒被回收，因此占的記憶體升到了200MB，當函數返回後，a的引用計數為0，a被回收，記憶體又恢復到了7MB。

　　如果把a變成全局變數，函數返回後，引用計數依然大於0，於是對象就不會被垃圾回收，依然占著大量的記憶體

def func():
    show_memory_info('initial')
    global a
    a = [i for i in range(10000000)]
    show_memory_info('after a created')

func()
show_memory_info('finished')

########## 輸出 ##########

# initial memory used: 6.67578125 MB
# after a created memory used: 199.30859375 MB
# finished memory used: 199.30859375 MB

　　或者把列表返回，在主程式中接收，引用依然存在，垃圾回收就不會被觸發，大量記憶體仍然被占用著

def func():
    show_memory_info('initial')
    a = [i for i in range(10000000)]
    show_memory_info('after a created')
    return a

a = func()
show_memory_info('finished')

########## 輸出 ##########

# initial memory used: 6.6484375 MB
# after a created memory used: 199.2890625 MB
# finished memory used: 199.2890625 MB

　　看一下 Python 內部的引用計數機制

import sys

a = []

# 兩次引用，一次來自 a，一次來自 getrefcount
print(sys.getrefcount(a))

def func(a):
    # 四次引用，a，python 的函數調用棧，函數參數，和 getrefcount
    print(sys.getrefcount(a))

func(a)

# 兩次引用，一次來自 a，一次來自 getrefcount，函數 func 調用已經不存在
print(sys.getrefcount(a))

########## 輸出 ##########

2
4
2

　　sys.getrefcount() 這個函數，可以查看一個變數的引用次數。這段代碼本身應該很好理解，不過別忘了，getrefcount 本身也會引入一次計數。另一個要註意的是，在函數調用發生的時候，會產生額外的兩次引用，一次來自函數棧，另一個是函數參數。

　　又如：

import sys

a = []

print(sys.getrefcount(a)) # 兩次

b = a

print(sys.getrefcount(a)) # 三次

c = b
d = b
e = c
f = e
g = d

print(sys.getrefcount(a)) # 八次

########## 輸出 ##########

2
3
8

　　a、b、c、d、e、f、g 這些變數全部指代的是同一個對象，而 sys.getrefcount() 函數並不是統計一個指針，而是要統計一個對象被引用的次數，所以最後一共會有八次引用。

　　手動釋放記憶體，應該怎麼做呢？方法同樣很簡單。只需要先調用 del a 來刪除一個對象；然後強制調用 gc.collect()，即可手動啟動垃圾回收。

import gc
import os
import psutil
# 顯示當前 python 程式占用的記憶體大小
def show_memory_info(hint):
    pid = os.getpid()
    p = psutil.Process(pid)
    
    info = p.memory_full_info()
    memory = info.uss / 1024. / 1024
    print('{} memory used: {} MB'.format(hint, memory))

show_memory_info('initial')

a = [i for i in range(10000000)]

show_memory_info('after a created')

del a
gc.collect()

show_memory_info('finish')
print(a)

initial memory used: 6.54296875 MB
after a created memory used: 199.17578125 MB
finish memory used: 7.26171875 MB
Traceback (most recent call last):
  File "Coroutine.py", line 24, in <module>
    print(a)
NameError: name 'a' is not defined

迴圈引用

　　觀察代碼：

def func():
    show_memory_info('initial')
    a = [i for i in range(10000000)]
    b = [i for i in range(10000000)]
    show_memory_info('after a, b created')
    a.append(b)
    b.append(a)

func()
show_memory_info('finished')

########## 輸出 ##########

initial memory used: 6.625 MB
after a, b created memory used: 392.08984375 MB
finished memory used: 392.08984375 MB

　　這裡，a 和 b 互相引用，並且，作為局部變數，在函數 func 調用結束後，a 和 b 這兩個指針從程式意義上已經不存在了。但是，很明顯，依然有記憶體占用！為什麼呢？因為互相引用，導致它們的引用數都不為 0。

　　處理這種情況，可以調用顯式調用 gc.collect() ，來啟動垃圾回收。

　　Python 使用標記清除（mark-sweep）演算法和分代收集（generational），來啟用針對迴圈引用的自動垃圾回收。

調試記憶體泄漏

　　objgraph，一個非常好用的可視化引用關係的包.

　　安裝：

pip install graphviz
pip install xdot
pip install objgraph

　　windows的話要除了裝以上庫還要在官網https://graphviz.gitlab.io/_pages/Download/Download_windows.html下載，然後設置環境變數 Path增加C:\Program Files (x86)\Graphviz2.38\bin，在CMD輸入dot -version驗證。

　　通過下麵這段代碼和生成的引用調用圖，你能非常直觀地發現，有兩個 list 互相引用，說明這裡極有可能引起記憶體泄露。

import objgraph

a = [1, 2, 3]
b = [4, 5, 6]

a.append(b)
b.append(a)

objgraph.show_refs([a])

　　註：在windows中可能會提示:

Graph written to C:\Users\Public\Documents\Wondershare\CreatorTemp\objgraph-wwcqiie_.dot (8 nodes)
Image renderer (dot) not found, not doing anything else

　　這時只要在打開dot文件所在的路徑，然後CMD中執行

 dot .\objgraph-yclwfpzr.dot -Tpng -o image.png

　　就可以生成文件。

　　另一個非常有用的函數，是 show_backrefs()。以下是調用show_backrefs()生成的圖片。

參考

　　極客時間《Python核心技術與實戰》專欄

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Python【列表字典元組】

列表列表用中括弧[ ]把各種數據框起來，每一個數據叫作“元素”。每個元素之間都要用英文逗號隔開各種類型的數據（整數/浮點數/字元串）————————————————————————————從列表提取單個元素每個元素都有自己的位置編號（即偏移量） 1.偏移量是從0開始的2.列表名後加帶偏移量的中括弧, ...
Java描述設計模式(04)：抽象工廠模式

一、抽象工廠模式 1、生活場景汽車生產根據用戶選擇的汽車類型，指定不同的工廠進行生產，選擇紅旗轎車，就要使用中國工廠，選擇奧迪轎車，就要使用德國工廠。 2、抽象工廠模式 1) 抽象工廠模式：定義了一個interface用於創建相關對象或相互依賴的對象，而無需指明具體的類； 2) 抽象工廠模式可以將 ...
模擬博客園登陸！

一．首先程式啟動，顯示下麵內容供用戶選擇： 1.請登錄 2.請註冊 3.進入文章頁面 4.進入評論頁面 5.進入日記頁面 6.進入收藏頁面 7.註銷賬號 8.退出整個程式二．必須實現的功能： 1.註冊功能要求： a.用戶名、密碼要記錄在文件中。 b.用戶名要求：只能含有字母或者數字不能含有特殊字元 ...
Python 編程入門

我喜歡直接了當, 這次主要是推薦蟒營大媽的 Python 入門課(https://py.101.camp), 還有不到一周就要開課了, 歡迎轉發推薦~ 點擊"夏日大作戰：從小白到小能手的 Python 學習之旅", 直接訪問課程的詳細信息, 以及課程的由來故事DM2: call back 下文為曾經 ...
Python【input()函數】

運用input函數搜集信息 input()函數結果的賦值name = input('請輸入你的名字：') #將input()函數的執行結果（收集的信息）賦值給變數name input()函數的使用場景1.函數結果賦值 name=input()2.搜集信息 name=input(xxx)3.輸出結果 ...
深度解密Go語言之channel

Goroutine 和 Channel 是 Go 語言併發編程的兩大基石，本文深度解密 channel 的底層原理。 ...
Java 8 終於支持 Docker！

Java 8曾經與Docker無法很好地相容性，現在問題已消失。請註意：我在本文中使用採用GNU GPL v2許可證的OpenJDK官方docker映像。在Oracle Java SE中，這裡描述的docker支持功能在更新191中引入。Oracle在2019年4月更改了Java 8更新的許可證， ...
Java面試題必備知識之ThreadLocal

老套路，先列舉下關於ThreadLocal常見的疑問，希望可以通過這篇學習筆記來解決這幾個問題： 1. ThreadLocal是用來解決什麼問題的？ 2. 如何使用ThreadLocal？ 3. ThreadLocal的實現原理是什麼？ 4. 可否舉幾個實際項目中使用ThreadLocal的案例？ ...