字元串在Python內部是如何省記憶體的?案例詳解

来源:https://www.cnblogs.com/chengxuyuanaa/archive/2020/04/21/12745522.html
-Advertisement-
Play Games

起步 Python3 起,str 就採用了 Unicode 編碼(註意這裡並不是 utf8 編碼,儘管 .py 文件預設編碼是 utf8 )。 每個標準 Unicode 字元占用 4 個位元組。這對於記憶體來說,無疑是一種浪費。 Unicode 是表示了一種字元集,而為了傳輸方便,衍生出里如 utf8  ...


起步

Python3 起,str 就採用了 Unicode 編碼(註意這裡並不是 utf8 編碼,儘管 .py 文件預設編碼是 utf8 )。 每個標準 Unicode 字元占用 4 個位元組。這對於記憶體來說,無疑是一種浪費。

Unicode 是表示了一種字元集,而為了傳輸方便,衍生出里如 utf8 , utf16 等編碼方案來節省存儲空間。Python內部存儲字元串也採用了類似的形式。
另外還要註意:不管你是為了Python就業還是興趣愛好,記住:項目開發經驗永遠是核心,如果你沒有2020最新python入門到高級實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,裡面很多新python教程項目,還可以跟老司機交流討教!

三種內部表示Unicode字元串

為了減少記憶體的消耗,Python使用了三種不同單位長度來表示字元串:

  • 每個字元 1 個位元組(Latin-1)
  • 每個字元 2 個位元組(UCS-2)
  • 每個字元 4 個位元組(UCS-4)

源碼中定義字元串結構體:

# Include/unicodeobject.h
typedef uint32_t Py_UCS4;
typedef uint16_t Py_UCS2;
typedef uint8_t Py_UCS1;

# Include/cpython/unicodeobject.h
typedef struct {
    PyCompactUnicodeObject _base;
    union {
        void *any;
        Py_UCS1 *latin1;
        Py_UCS2 *ucs2;
        Py_UCS4 *ucs4;
    } data;                     /* Canonical, smallest-form Unicode buffer */
} PyUnicodeObject;
複製代碼

如果字元串中所有字元都在 ascii 碼範圍內,那麼就可以用占用 1 個位元組的 Latin-1 編碼進行存儲。而如果字元串中存在了需要占用兩個位元組(比如中文字元),那麼整個字元串就將採用占用 2 個位元組 UCS-2 編碼進行存儲。

這點可以通過 sys.getsizeof 函數外部窺探來驗證這個結論:

 

20200110170427.png

 

如圖,存儲 'zh' 所需的存儲空間比 'z' 多 1 個位元組, h 在這裡占了 1 個位元組;

存儲 'z中' 所需的存儲空間比 '中' 多了 2 個位元組,z 在這裡占了 2 個位元組。

大多數的自然語言採用 2 位元組的編碼就夠了。但如果有一個 1G 的 ascii 文本載入到記憶體後,在文本中插入了一個 emoji 表情,那麼字元串所需的空間將擴大到 4 倍,是不是很驚喜。

為什麼內部不採用 utf8 進行編碼

最受歡迎的 Unicode 編碼方案,Python內部卻不使用它,為什麼?

這裡就得說下 utf8 編碼帶來的缺點。這種編碼方案每個字元的占用位元組長度是變化的,這就導致了無法按所以隨機訪問單個字元,例如 string[n] (使用utf8編碼)則需要先統計前n個字元占用的位元組長度。所以由 O(1) 變成了 O(n) ,這更無法讓人接受。

因此Python內部採用了定長的方式存儲字元串。

字元串駐留機制

另一個節省記憶體的方式就是將一些短小的字元串做成池,當程式要創建字元串對象前檢查池中是否有滿足的字元串。在內部中,僅包含下劃線(_)、字母 和 數字 的長度不高過 20 的字元串才能駐留。駐留是在代碼編譯期間進行的,代碼中的如下會進行駐留檢查:

  • 空字元串 '' 及所有;
  • 變數名;
  • 參數名;
  • 字元串常量(代碼中定義的所有字元串);
  • 字典鍵;
  • 屬性名稱;

駐留機制節省大量的重覆字元串記憶體。在內部,字元串駐留池由一個全局的 dict 維護,該欄位將字元串用作鍵:

void PyUnicode_InternInPlace(PyObject **p)
{
    PyObject *s = *p;
    PyObject *t;

    if (s == NULL || !PyUnicode_Check(s))
        return;

    // 對PyUnicodeObjec進行類型和狀態檢查
    if (!PyUnicode_CheckExact(s))
        return;
    if (PyUnicode_CHECK_INTERNED(s))
        return;
    // 創建intern機制的dict
    if (interned == NULL) {
        interned = PyDict_New();
        if (interned == NULL) {
            PyErr_Clear(); /* Don't leave an exception */
            return;
        }
    }

    // 對象是否存在於inter中
    t = PyDict_SetDefault(interned, s, s);

    // 存在, 調整引用計數
    if (t != s) {
        Py_INCREF(t);
        Py_SETREF(*p, t);
        return;
    }
    /* The two references in interned are not counted by refcnt.
       The deallocator will take care of this */
    Py_REFCNT(s) -= 2;
    _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}
複製代碼

變數 interned 就是全局存放字元串池的字典的變數名 interned = PyDict_New(),為了讓 intern 機制中的字元串不被回收,設置字典時 PyDict_SetDefault(interned, s, s); 將字元串作為鍵同時也作為值進行設置,這樣對於字元串對象的引用計數就會進行兩次 +1 操作,這樣存於字典中的對象在程式結束前永遠不會為 0,這也是 y_REFCNT(s) -= 2; 將計數減 2 的原因。

從函數參數中可以看到其實字元串對象還是被創建了,內部其實始終會為字元串創建對象,但經過 inter 機制檢查後,臨時創建的字元串會因引用計數為 0 而被銷毀,臨時變數在記憶體中曇花一現然後迅速消失。

字元串緩衝池

除了字元串駐留池,Python 還會保存所有 ascii 碼內的單個字元:

static PyObject *unicode_latin1[256] = {NULL};
複製代碼

如果字元串其實是一個字元,那麼優先從緩衝池中獲取:

[unicodeobjec.c]
PyObject * PyUnicode_DecodeUTF8Stateful(const char *s,
                             Py_ssize_t size,
                             const char *errors,
                             Py_ssize_t *consumed)
{
    ...

    /* ASCII is equivalent to the first 128 ordinals in Unicode. */
    if (size == 1 && (unsigned char)s[0] < 128) {
        return get_latin1_char((unsigned char)s[0]);
    }
    ...
}
複製代碼

然後再經過 intern 機制後被保存到 intern 池中,這樣駐留池中和緩衝池中,兩者都是指向同一個字元串對象了。

嚴格來說,這個單字元緩衝池並不是省記憶體的方案,因為從中取出的對象幾乎都會保存到緩衝池中,這個方案是為了減少字元串對象的創建。

總結

本文介紹了兩種是節省記憶體的方案。一個字元串的每個字元在占用空間大小是相同的,取決於字元串中的最大字元。

短字元串會放到一個全局的字典中,該字典中的字元串成了單例模式,從而節省記憶體。

最後註意:不管你是為了Python就業還是興趣愛好,記住:項目開發經驗永遠是核心,如果你沒有2020最新python入門到高級實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,裡面很多新python教程項目,還可以跟老司機交流討教!
本文的文字及圖片來源於網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • OOP的七大原則 OCP(Open Closed Principle),開放封閉原則 :軟體實體應該擴展開放、修改封閉。 實現:合理劃分構件,一種可變性不應當散落在代碼的很多角落裡,而應當被封裝到一個對象里;一種可變性不應當與另一個可變性混合在一起。 DIP(Dependency Inversion ...
  • 一、timer定時器 1.關於定時器的應用:每隔一段固定的時間執行一段代碼。 2.函數Timer().schedule(TimerTask timerTask,Date date,long proid) package code_class_file; import java.text.Simple ...
  • 為什麼要搭建註冊中心集群 以防出現單點故障 也就是唯一那個註冊中心出現故障 導致整個架構故障 互相註冊 相互守望 先要修改本機的hosts文件的主機映射 增加映射 C:\Windows\System32\drivers\etc\hosts 1.修改之前7001配置文件 2.修改之後 需要修改host ...
  • 本文是``系列的第3篇。 引用傳參 我有一個函數: 因為參數類型是 ,所以函數能夠修改傳入的整數,而非其拷貝。 然後我用 把它和一個 綁定起來: int i = 1; auto f = std::bind(modify, i); f(); std::cout `對象。 reference_wrapp ...
  • 好久麽有寫博客,近期項目基本完成,日常的學習也需要提上日程,儘管未來麽有希望,但還是低著腦袋往前走吧.....不啰嗦進入主題。 死迴圈 ※軟死機:CPU占用100%,雙核占50%,機器明顯變慢。出現軟死機其實就是死迴圈。如while(1);就是個死迴圈語句,請不要用在歪門邪道處。 ※硬死機:滑鼠、鍵 ...
  • C++ 函數重載 什麼是函數重載: 可以有多個同名的函數。 可以通過函數重載來設計一系列函數——他們完成相同的工作,但使用不同的參數列表。 函數特征標: 函數重載的關鍵是函數的參數列表——也稱為函數特征標。 如果兩個函數的參數數目和類型相同,同時參數的排列順序也相同,則它們的特征標相同,反之不同。 ...
  • 現在的智能手機解析度都很高,拍的高清照片動輒5M甚至7M。 上傳到系統的圖片太大了,導致頁面載入緩慢。 為此,讓組裡一小伙做一個壓縮工具。發版後,發現圖片雖然是壓縮了,不過有個別圖片嚴重失真。 然後,在網上查資料,發現有人分享google提供的開源工具Thumbnailator。 maven dep ...
  • 版權聲明:本文為CSDN博主「iswitched」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。原文鏈接:https://blog.csdn.net/weixin_44873106/article/details/89787021 1 環境變數配置 JAVA_ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...