GaussDB通信運維:詳解stream連接池設計原理

来源:https://www.cnblogs.com/huaweiyun/p/18020418
-Advertisement-
Play Games

本文詳細介紹了stream連接池及其原理,讓我們更好的理解GaussDB(DWS)集群通信中數據交互的具體邏輯,對於GaussDB通信運維也具備一定的參考意義。 ...


本文分享自華為雲社區《GaussDB(DWS) 集群通信系列二:stream線程池設計》,作者:半島里有個小鐵盒。

1.前言

適用版本:【8.1.0(及以上)】

GaussDB(DWS)分散式架構的Stream運算元作為SQL join操作時頻繁發生的執行運算元,共存在三種模式:Gather、Redistribute、Broadcast,分別負責CN節點GATHER數據,DN節點REDISTRIBUTE和BROACAST數據。大集群高併發場景下,Stream運算元過多可能會導致通信的性能瓶頸,引起性能劣化(2000個stream同時啟動,進程初始化耗時從ms級劣化到s級),因此需要儘可能減少Stream運算元。但是在某些現場環境下,存在數據傾斜、join查詢不包含必要分佈鍵等客觀情況,Stream運算元無法有效減少,為多表join場景下的查詢時延保障帶來挑戰。因此GaussDB(DWS)對於線程初始化->線程任務執行->線程退出執行的流程方面做了stream線程池優化,減少了線程初始化與線程退出所帶來的開銷。

2.實現原理

stream線程是臨時線程,隨query啟動和退出,負責stream運算元的執行,stream線程初始化和退出都會爭搶鎖等進程級資源,在stream線程個數無法進一步優化的場景下,需要設計有效方案以減少stream線程初始化和退出的時間代價,將進程初始化耗時穩定在ms級,保障資料庫的確定性時延查詢。Stream線程池的核心思想是等stream線程執行完計劃任務,保留必要且可復用的線程信息,將線程放入線程池中。

img

線程池中的線程執行過程如上圖所示,其具體步驟為:

  • 步驟一:線程信息初始化
  • 步驟二:線程待喚醒後輕量級初始化(query級初始化)
  • 步驟三:線程任務執行
  • 步驟四:線程清理
  • 返回步驟二:繼續等待下條query執行

在返回步驟二時,當線程等待超時、超出線程池容量(最大stream線程個數)、異常時線程已不可用,需要銷毀。

其中步驟一中線上程初始化時,需要執行的操作有:線程創建、創建相關記憶體上下文、信號處理函數註冊、記憶體追蹤信息初始化、初始化GUC選項等操作;

步驟二中線上程輕量級/查詢級初始化時,需要執行的操作有恢復GUC參數、初始化BackendParams、重置GUC參數等操作。

img

stream線程池為了高效管理線程的出/入池操作,採用無鎖隊列實現。定義結構體ThreadSlot保存線程池中每一個線程的信息,包含:線程狀態、線程號、線程對應的database oid、線程執行所需的信息StreamProducer、線程喚醒所需的鎖和條件變數。

當線程還未被創建時,初始化一定數量的ThreadSlot數量以預留stream線程,這些ThreadSlot被保存在數組threadSlots中。當stream線程執行完畢,需要將stream線程放置到表徵可復用線程的無鎖隊列,稱之為idleRing;當線程因為超時、異常等原因不再復用,需要退出時,將stream線程對應的ThreadSlot放置到表徵未創建線程的無鎖隊列,稱之為emptyRing。

idleRing的作用是為了快速獲取並復用線程池中的線程,emptyRing的作用是快速獲取一個未被使用的ThreadSlot結構,以創建一個新的stream線程。由於stream線程的初始化信息和database是強相關的,如果不保留database相關的信息,那麼線程初始化的時間代價仍然較高,所以線程池中的線程復用時,需要滿足database信息匹配。對於設計線程池而言,每一個database都應該對應一個idleRing。

綜上所述,基於無鎖隊列的stream線程池設計如下所示:

img

從上圖可以看出,一個線程池包含預留stream線程結構的threadSlots、一個表徵未創建線程的無鎖隊列emptyRing和表徵可復用線程的無鎖隊列idleRing,由於每個database對應一個idleRing,因此多個idleRing被組織為鏈表結構。

3.具體實現機制

3.1 數據結構設計

定義結構體ThreadSlot保存線程池中每一個線程的信息,包含:線程狀態、線程號、線程對應的database oid、線程執行所需的信息StreamProducer,StreamProducer是父線程向子線程傳遞的唯一結構、線程喚醒所需的鎖和條件變數。

typedef struct
{
    int status;
    uint32 idx;
    ThreadId tid;
    Oid dbOid;
    StreamProducer* streamObj;
    pthread_mutex_t m_mutex;
    pthread_cond_t m_cond;
} ThreadSlot;

定義結構體StreamThreadPool表徵線程池,其中size表示線程池中擬預留的ThreadSlot個數,ThreadSlot被保存在threadSlots數組中;無鎖隊列emptyRing用來保存未創建線程的ThreadSlot,對應地,idleRing用來保存空閑的已創建stream線程的ThreadSlot。結構如下所示:

class StreamThreadPool: public BaseObject
{
public:
    StreamThreadPool();
    void Init(int num);                                                 // streamThreadPool init   
    int Call(StreamProducer* obj);                                    // 獲取idle線程 或 create 新線程
    bool Wait();                                                      // idle線程等待喚醒或者超時退出
    ThreadSlot* GetLocalSlot();                                       // get streamThreadSlot
    void SetLocalSlot(int slotIdx);                                   // set streamThreadSlot
    StreamPool* GetLocalPool();                                       // 獲取streamDBPool 或 新建一個
    ThreadSlot* PopSlot();                                            // 從idleRing/emptyRing獲取一slot
    void PushToEmpty(ThreadSlot* slot);                               // 將slot直接放入emptyRing
    void PushToIdle(StreamPool* pool, ThreadSlot* slot);              // 將slot直接放入idleRing
    void LocalPushToIdle();                                           // 根據狀態,將slot放入idleRing
    void LocalPushToEmpty();                                          // 根據狀態,將slot放入emptyRing
    int CleanStreamPool(const char *dbName, cleanOption cleanMode);   // 根據db信息清線程
    void CleanInAllStreamPool(int desNum);                            // 調整線程池中stream線程個數
    int GetStreamNum();                                               // 獲取線程池中stream線程個數
    bool Release();                                                   // 判斷超時線程是否需要清理
    bool TimeoutClean();                                              // 清理超時idle線程

private:
    int size;
    ThreadSlot* threadSlots;
    ArrayLockFreeQueue emptyRing;
    StreamPool* PoolListHead;
}

定義結構體StreamPool,由於stream線程的初始化信息和database是強相關的,如果不保留database相關的信息,那麼線程初始化的時間代價仍然較高,所以線程池中的線程復用時,需要滿足database信息匹配,所以一個emptyRing和一個database相匹配,保存在鏈表PoolListHead中。

typedef struct StreamPool
{
    Oid dbOid;
    ArrayLockFreeQueue idleRing;
    struct StreamPool* next;
} StreamPool;

綜上,我們可以得到各結構間組織的直觀圖,如下所示:

img

上圖中threadSlots可以放在idleRing(藍色)、emptyRing(綠色)和運行空間(黃色)中。

3.2 stream線程狀態轉移DFA設計

每一個記錄線程信息的結構ThreadSlot中都保存了線程當前的狀態status,記錄線程狀態的目的是為了保障線程執行過程的有序控制,也可以通過狀態的互斥避免threadSlot不會被兩個線程同時使用。

stream線程狀態轉移用確定性有限狀態機(DFA,definite automata)表徵,共包含4個狀態:

STREAM_SLOT_EXIT、STREAM_SLOT_IDLE、STREAM_SLOT_HOLD和STREAM_SLOT_RUN狀態。其物理含義如下:

  • STREAM_SLOT_EXIT:線程退出狀態,表示線程未被創建或線程已退出;
  • STREAM_SLOT_IDLE:線程可復用狀態,表示線程在idleRing中,可以被覆用;
  • STREAM_SLOT_HOLD:線程臨時獨占狀態,表示線程在做進入下一個狀態的準備工作;
  • STREAM_SLOT_RUN:線程運行狀態,表示線程正在執行任務。

狀態間轉移條件如下所示,圖中粗箭頭表示狀態機主迴圈部分:

img

與狀態對應的,是slot所處的位置,slot所處的位置有三處,分別是idleRing、emptyRing和運行空間,slot從無鎖隊列中拿出,運行時所處的位置,我們稱之為運行空間。各狀態所處的位置情況如下所示:

  • STREAM_SLOT_EXIT:idleRing(idle線程超時)、emptyRing(初始化或者FATAL);
  • STREAM_SLOT_IDLE:idleRing
  • STREAM_SLOT_HOLD:運行空間(從無鎖隊列中取出)、idleRing(idle線程超時或中斷);
  • STREAM_SLOT_RUN:運行空間。

Slot的位置變化和狀態轉移的關係如下,圖中粗箭頭表示狀態機主迴圈部分:

img

根據各狀態所處的位置情況,從idleRing中取出的slot可能有三種狀態:EXIT、IDLE、HOLD。當取出IDLE狀態的slot,說明線程可復用;當取出EXIT狀態的slot,說明線程已退出,此時需要將slot轉存到emptyRing;當取出HOLD狀態,說明線程正在被使用,此時需要放回idleRing。

EmptyRing中slot的狀態只能是EXIT,運行空間中slot的狀態要麼是HOLD(剛取出還未運行),要麼是RUN(正在運行),不再贅述

3.3 單個stream線程執行流程

Stream線程池中stream線程整體執行流程如下圖所示:

img

stream線程初始化僅初始化一次,執行完query之後,便將連接歸還到連接池裡,迴圈執行上圖中黃色部分的語句,如果有異常則線程退出,連接銷毀,slot歸還至emptyRing;如果正常執行結束,將連接中內容清理,避免下個連接誤用,並將slot歸還至idleRing等待下個連接復用。

那麼stream線程復用時如何保持參數的一致性呢,對應上圖中的set GUC params階段。父線程保存自己的guc_variables在syncGucVariables中,syncGucVariables是需要傳遞給stream的結構用以保證父子線程guc參數的一致。然後父線程在初始化streamProducer時將syncGucVariables保存在該結構中傳遞。Stream線程根據streamProducer初始化自己的syncGucVariables變數,首先reset所有的guc變數,然後根據syncGucVariables修正自己的variables。

4.外部介面

4.1 GUC參數

max_stream_pool:設置stream線程池能夠容納stream線程的最大個數。該參數8.1.2及以上版本支持。預設值為65535。設置為-1表示不開啟stream線程池。該參數支持reload更新,更新規則:設置max_stream_pool小於當前可用線程個數,支持線程個數實時減少;當設置max_stream_pool大於當前idle線程個數,將由業務驅動線程個數的增加

4.2 視圖

pg_thread_wait_status:展示了集群所有CN/DN進程內的所有線程的實時 等待狀態,是定位集群通信問題最重要的視圖

其中對於wait_status列狀態說明如下:

  • wait stream task:空閑的stream線程;

  • wait node:等待其他DN的數據,需要關註對端狀態;

  • flush data:發送數據給其他DN時因為對端buffer滿而阻塞;

  • wait cmd:DN上空閑的postgres線程,等待CN的下一個query;

  • none:未定義狀態,極有可能是阻塞原因;

  • synchronize quit:同步退出狀態,自身任務已完成,在等待同一個query的其他線程一起退出;

5.通過表象看stream線程池邏輯

【場景一】集群基礎行為場景——建立多資料庫場景

Create database ***;(建立多庫)

分別執行帶stream運算元的查詢;

例:create table test_01(c1 int, c2 int)with(orientation=column) distribute by hash(c1);
insert into test_01 select generate_series(1,100), generate_series(1,100);analyze test_01;
select * from test_01 a, test_01 b, test_01 c, test_01 d, test_01 e, test_01 f where a.c2 =b.c2 and c.c2 = d.c2 and e.c2=f.c2 limit 100;

查詢結束,查pgxc_thread_wait_status看DN節點:預期stream線程狀態為wait thread cond。且多database之間stream線程不復用。

【場景二】集群基礎行為場景——建立多用戶場景

Create user ***;(建立多用戶)

分別執行帶stream運算元的查詢;(參考場景一示例)

查詢結束,查pgxc_thread_wait_status看DN節點:預期stream線程狀態為wait thread cond。且多user之間stream線程可以復用。

例:用戶一執行完查詢,視圖中顯示共有四個stream線程線上程池,用戶二執行同樣查詢返回正確結果,視圖中的stream線程個數不變,且線程號也是一致的,則說明復用。

【場景三】集群基礎行為場景——線程清理場景

調整guc參數max_stream_pool的值,觀測是否生效;預期:當設置max_stream_pool小於當前idle線程個數,支持線程個數實時減少;當設置max_stream_pool大於當前idle線程個數,將由業務驅動線程個數的增加,但是不會超過max_stream_pool。

執行clean connection(ALL force),查看stream線程是否被清理;預期:該database的stream線程被完全清理。

執行drop database命令,查看stream線程是否被清理;預期:該database的stream線程被完全清理。

6.總結

本文詳細介紹了stream連接池及其原理,讓我們更好的理解GaussDB(DWS)集群通信中數據交互的具體邏輯,對於GaussDB通信運維也具備一定的參考意義。

點擊關註,第一時間瞭解華為雲新鮮技術~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、準備“武器” 本文是通過虛擬機搭建 OOS 測試環境的,4567是3的前提,武器提取 le73 1、VMWare Workstation 17 Player 2、Windows Server 2016 鏡像(需要 Office Online Server 2017 年 4 月或更高版本) 3、O ...
  • 新版的 Windows 經常會自動檢查更新,然後在某個夜深人靜的晚上幫你自動更新。 對於自動更新,一般的解決方案是直接禁用 Windows 更新服務。這種方式雖然關閉了自動更新,但會影響手動更新。Windows 的設置中可以設置暫停自動更新,但是最長只能設置暫停一周。下麵介紹一種延長暫停自動更新時間 ...
  • Linux 命令基礎 命令基礎格式 command [-options] [parameter] command:命令本身 -options:[可選,非必填]命令的一些選項,可以通過選項控制命令的行為細節 parameter:[可選,非必填]命令的參數,多數用於命令的指向目標等 示例: ls -l ...
  • 前言: 如果你想在 VMware 虛擬機裡面多開玩游戲的話,但是現在大多數網游都會檢測是否虛擬機,進入游戲被檢測到在虛擬機中運行,游戲可能直接閃退。所以就得對 VMware 虛擬機進行去除虛擬化。 原理就是通過十六進位工具對 VMware 虛擬機程式進行修改硬體的信息,分別把硬碟、音效卡、網卡、主板芯 ...
  • GaussDB(for MySQL) Serverless集群,可根據客戶業務實時負載,集群資源秒級動態彈降,結合內核深度優化,在各種場景下做到對上層業務透明無感。 ...
  • 前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節 ...
  • 02 SQL更新語句執行流程 與查詢流程不一樣的是,更新流程還涉及兩個重要的日誌模塊。 ​ redo log(重做日誌)和 binlog(歸檔日誌) ​ redo log 物理日誌 binlog 邏輯日誌 redo log WAL 的全稱是 Write-Ahead Logging。 關鍵點就是先寫日 ...
  • 前言: 記錄對林曉斌老師的《MySQL 實戰 45 講》課程學習路程。 01 MySQL的基本架構 MySQL的邏輯架構圖 MySQL 分為 Server 層和存儲引擎層兩部分。 Server 層 功能:實現所有 跨存儲引擎 的功能,比如存儲過程、觸發器、視圖等。 連接器、查詢緩存、分析器、優化器、 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 微服務架構已經成為搭建高效、可擴展系統的關鍵技術之一,然而,現有許多微服務框架往往過於複雜,使得我們普通開發者難以快速上手並體驗到微服務帶了的便利。為瞭解決這一問題,於是作者精心打造了一款最接地氣的 .NET 微服務框架,幫助我們輕鬆構建和管理微服務應用。 本框架不僅支持 Consul 服務註 ...
  • 先看一下效果吧: 如果不會寫動畫或者懶得寫動畫,就直接交給Blend來做吧; 其實Blend操作起來很簡單,有點類似於在操作PS,我們只需要設置關鍵幀,滑鼠點來點去就可以了,Blend會自動幫我們生成我們想要的動畫效果. 第一步:要創建一個空的WPF項目 第二步:右鍵我們的項目,在最下方有一個,在B ...
  • Prism:框架介紹與安裝 什麼是Prism? Prism是一個用於在 WPF、Xamarin Form、Uno 平臺和 WinUI 中構建鬆散耦合、可維護和可測試的 XAML 應用程式框架 Github https://github.com/PrismLibrary/Prism NuGet htt ...
  • 在WPF中,屏幕上的所有內容,都是通過畫筆(Brush)畫上去的。如按鈕的背景色,邊框,文本框的前景和形狀填充。藉助畫筆,可以繪製頁面上的所有UI對象。不同畫筆具有不同類型的輸出( 如:某些畫筆使用純色繪製區域,其他畫筆使用漸變、圖案、圖像或繪圖)。 ...
  • 前言 嗨,大家好!推薦一個基於 .NET 8 的高併發微服務電商系統,涵蓋了商品、訂單、會員、服務、財務等50多種實用功能。 項目不僅使用了 .NET 8 的最新特性,還集成了AutoFac、DotLiquid、HangFire、Nlog、Jwt、LayUIAdmin、SqlSugar、MySQL、 ...
  • 本文主要介紹攝像頭(相機)如何採集數據,用於類似攝像頭本地顯示軟體,以及流媒體數據傳輸場景如傳屏、視訊會議等。 攝像頭採集有多種方案,如AForge.NET、WPFMediaKit、OpenCvSharp、EmguCv、DirectShow.NET、MediaCaptre(UWP),網上一些文章以及 ...
  • 前言 Seal-Report 是一款.NET 開源報表工具,擁有 1.4K Star。它提供了一個完整的框架,使用 C# 編寫,最新的版本採用的是 .NET 8.0 。 它能夠高效地從各種資料庫或 NoSQL 數據源生成日常報表,並支持執行複雜的報表任務。 其簡單易用的安裝過程和直觀的設計界面,我們 ...
  • 背景需求: 系統需要對接到XXX官方的API,但因此官方對接以及管理都十分嚴格。而本人部門的系統中包含諸多子系統,系統間為了穩定,程式間多數固定Token+特殊驗證進行調用,且後期還要提供給其他兄弟部門系統共同調用。 原則上:每套系統都必須單獨接入到官方,但官方的接入複雜,還要官方指定機構認證的證書 ...
  • 本文介紹下電腦設備關機的情況下如何通過網路喚醒設備,之前電源S狀態 電腦Power電源狀態- 唐宋元明清2188 - 博客園 (cnblogs.com) 有介紹過遠程喚醒設備,後面這倆天瞭解多了點所以單獨加個隨筆 設備關機的情況下,使用網路喚醒的前提條件: 1. 被喚醒設備需要支持這WakeOnL ...
  • 前言 大家好,推薦一個.NET 8.0 為核心,結合前端 Vue 框架,實現了前後端完全分離的設計理念。它不僅提供了強大的基礎功能支持,如許可權管理、代碼生成器等,還通過採用主流技術和最佳實踐,顯著降低了開發難度,加快了項目交付速度。 如果你需要一個高效的開發解決方案,本框架能幫助大家輕鬆應對挑戰,實 ...