【學到一個新名詞】String interning(字元串駐留/字元串內部化)

来源:https://www.cnblogs.com/ahfuzhang/archive/2023/11/23/17851725.html
-Advertisement-
Play Games

作者:張富春(ahfuzhang),轉載時請註明作者和引用鏈接,謝謝! cnblogs博客 zhihu Github 公眾號:一本正經的瞎扯 在閱讀 VictoriaMetrics v1.95.1 的命令行手冊的時候,發現這樣一段: -internStringCacheExpireDuration ...


作者:張富春(ahfuzhang),轉載時請註明作者和引用鏈接,謝謝!


在閱讀 VictoriaMetrics v1.95.1 的命令行手冊的時候,發現這樣一段:

  -internStringCacheExpireDuration duration
     The expiry duration for caches for interned strings. See https://en.wikipedia.org/wiki/String_interning . See also -internStringMaxLen and -internStringDisableCache (default 6m0s)

什麼是 String interning 呢?我通過了 wiki 鏈接學習了一下。
並且,我還找到了一個使用 String interning 技術的 golang 項目:https://github.com/josharian/intern . 作者還寫了 blog: Interning strings in Go 來進一步介紹細節。

String interning 可以翻譯為 字元串駐留 或者 字元串內部化。這個技巧用於節約頻繁出現的字元串的空間占用,還可以用於頻繁出現的字元串的比較的加速。
它的處理思路如下:

  1. 首先有一個全局的線程安全的鍵值對的字元串池;
類似於: map[string]string

然後把出現頻率超級高的字元串存儲在其中。

  1. 當出現新的字元串的時候,要先去字元串池中匹配。
    匹配到以後,程式就可以引用字元串池中的對象,而把當前引用的對象釋放掉。
    當存在大量的這樣內容相同的字元串的時候,這樣做無疑是可以節省空間的。
    在這樣的場景下,相當於時間換空間。

  2. 當字元串都來自字元串池,且需要頻繁比較的時候,直接比較指針就可以確定是否是同一個字元串,而無需逐個字元比較。
    在這樣的場景下,相當於空間換時間。

讓我們再看看那個簡單的 golang 實現的字元串內部化的源碼:
see: https://github.com/josharian/intern/blob/master/intern.go

package intern

import "sync"

var (
	pool sync.Pool = sync.Pool{   // 作者想用 sync.Pool 來解決不引用時候的釋放問題。但是併發環境下可能導致分配了多個鍵值對的字元串池。
		New: func() interface{} {    // sync.Pool 能夠在併發環境下工作,不管怎麼說,併發情況下使用不會出錯。
			return make(map[string]string)
		},
	}
)

// String returns s, interned.
func String(s string) string {
	m := pool.Get().(map[string]string)
	c, ok := m[s]  // 這裡要經過  1.計算字元串 hashcode; 2.hash 查找; 3.字元串內容比較。時間換空間的成本還是挺高的。
	if ok {
		pool.Put(m)
		return c  // 如果字元串池中存在,就置換為字元串池中的對象
	}
	m[s] = s  // 這裡不會發生併發問題
	pool.Put(m)
	return s
}

// Bytes returns b converted to a string, interned.
func Bytes(b []byte) string {
	m := pool.Get().(map[string]string)
	c, ok := m[string(b)]  // string(b) 這裡有個隱含的知識點:這種情況下編譯器不會分配新的字元串對象。
	if ok {
		pool.Put(m)
		return c
	}
	s := string(b)
	m[s] = s
	pool.Put(m)
	return s
}

// todo: 這裡還缺乏一個內容:當字元串都來自字元串池的時候,可以提供按照指針比較的方法
// 類似於:
//  isSmae := &str1==&str2 || str1==str2

看完了源碼,這個字元串內部化似乎也沒有很複雜很高深。或許某個存在大量重覆字元串的場景中,我們很能用上這個技術。

最後,ChatGPT 還給了我一段 VictoriaMetrics 中使用 String interning 技術的講解:

// 以下內容由  ChatGPT 4.0 產生:
VictoriaMetrics採用了字元串內部化技術來優化其時間序列資料庫的性能,尤其在處理度量指標的元數據時。這些元數據通常由標簽-值對組成,並且在VictoriaMetrics中以字元串的形式表示。下麵是VictoriaMetrics中字元串內部化實現的詳細信息:

1. 字元串內部化的目的和效果:在VictoriaMetrics中,由於元數據字元串在實踐中變化不大,因此在數據收集過程中會產生大量重覆。例如,`go_info` 度量指標的元數據包含Go版本的標簽-值對。這些版本並不經常變化,但每次從應用程式中收集此度量時,都需要解析其元數據併在記憶體中分配,直到它被垃圾回收。為了避免多次存儲相同的字元串,VictoriaMetrics通過內部化每個獨特字元串一次,併在需要時引用它,從而顯著節省記憶體​​​​。

2. 實現方法:在單線程應用中,字元串內部化的一種簡單實現方式是使用Go的map類型。但在vmagent這樣的多線程應用中,這種方法由於多核系統上訪問此映射時可能產生大量爭用,因此不太適合。為了在多線程環境下實現內部化,VictoriaMetrics使用了Go標準庫中的sync.Map,這是一個線程安全的實現​​。

3. sync.Map的優化用途:sync.Map特別適用於以下兩種情況:
  * 當一個給定的鍵只被寫入一次但多次使用時,即緩存命中率高的情況。
  * 當多個goroutine為不同的鍵集合讀取、寫入和覆蓋條目時,即每個goroutine使用不同的鍵集​​。

4. 內部化的註意事項:
  * 記憶體增長問題:隨著時間的推移,map會逐漸增長,無限制的記憶體增長是危險的。為了防止map無限增長,需要定期旋轉map,通過刪除並重建它,或為鍵實現某種形式的生存時間(TTL)邏輯。
  * 參數檢查:intern函數在處理常規字元串時表現良好,但除非鎖定介面,否則可能會有人嘗試傳遞可能破壞函數的內容。例如,在Go中,位元組切片是可變的,不適合作為映射中的鍵使用​​。

5. 內部化的通用建議:在實現字元串內部化時,克隆傳遞給函數的字元串是一個好主意。這可以幫助消除一些微妙的錯誤。VictoriaMetrics使用字元串內部化來減少解析度量元數據時的記憶體使用。這是一種對於讀取密集型工作負載效果最佳的強大技術,尤其適用於潛在字元串變體較少的情況​​。

總的來說,VictoriaMetrics通過字元串內部化有效地優化了記憶體使用和性能,特別是在處理大量重覆且不經常變化的度量元數據時。這一技術不僅提高了性能,還降低了對垃圾收集器的負擔,是處理大規模時間序列數據的有效方法。

Have fun.

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Node.js 是一個基於 Chrome V8 引擎的 JavaScript 運行環境,使用了一個事件驅動、非阻塞式 I/O 模型,讓 JavaScript 運行在服務端的開發平臺。 ...
  • 一、Vue3結構分析 1、Vue2與Vue3的對比 對TypeScript支持不友好(所有屬性都放在了this對象上,難以推倒組件的數據類型) 大量的API掛載在Vue對象的原型上,難以實現TreeShaking。 架構層面對跨平臺dom渲染開發支持不友好,vue3允許自定義渲染器,擴展能力強。 C ...
  • UDP 分片 與 丟包,UDP 真的比 TCP 高效嗎?UDP(用戶數據報協議)和TCP(傳輸控制協議)在很多方面都有顯著的區別。總體來說,TCP更適合需要可靠傳輸的應用,例如網頁瀏覽、電子郵件等,而UDP則更適合對速度有高要求,但對數據完整性要求較低的應用,例如實時視頻流或游戲。在多數網路環境下, ...
  • 十五、聯合體(union) 1、union語法 ​ 聯合體和結構體都是自定義數據類型 ,通過union可以創建一個聯合體,union中的成員變數共用記憶體(即記憶體中有重疊的部分),因此union的數據類型大小由其最大的成員變數決定。 //聯合體union語法 union 聯合體名稱 { 變數類型 變數 ...
  • 前言 位元組跳動如果上市,那麼鐘老闆將成為我國第一個世界首富 趁著現在還沒上市,咱們提前學習一下用Python分析股票歷史數據,抱住粗大腿坐等起飛~ 好了話不多說,我們直接開始正文 準備工作 環境使用 Python 3.10 解釋器 Pycharm 編輯器 模塊使用 requests —> 數據請求模 ...
  • 十四、指針和引用(四) 1、字元處理(字元串) 1)字元串 ​ 日常生活中,單個字元無法滿足我們的需求,比如一個單詞hello要由五個字元組成,名字張三要由兩個中文字元來組成,我們把這種連續的字元稱為字元串,字元串在記憶體中的表現就是連續的字元。比如hello在記憶體中是這樣子的。 ​ 註:字元在記憶體中 ...
  • 現一個 Java 21 中有意思的東西! 在java.Lang.Character類中增加了用於確定字元是否為 Emoji 表情符號的 API,主要包含下麵六個新的靜態方法: public static boolean isEmoji(int codePoint) { return Characte ...
  • Spring為任務調度和非同步方法執行提供註解支持。 1 啟用Scheduling註解 要啟用 @Scheduled 和 @Async ,在 @Configuration 類(或者在啟動類)添加 @EnableScheduling 和 @EnableAsync,如下: @Configuration @ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...