GaussDB(DWS)網路流控與管控效果

来源:https://www.cnblogs.com/huaweiyun/archive/2023/05/05/17374399.html
-Advertisement-
Play Games

摘要:本文主要介紹GaussDB(DWS)網路流控能力,並對其管控效果進行驗證。 本文分享自華為雲社區《GaussDB(DWS)網路流控與管控效果》,作者:門前一棵葡萄樹。 上一篇博文GaussDB(DWS)網路調度與隔離管控能力,我們詳細介紹了GaussDB網路調度邏輯,並簡單介紹瞭如何應用網路隔 ...


摘要:本文主要介紹GaussDB(DWS)網路流控能力,並對其管控效果進行驗證。

本文分享自華為雲社區《GaussDB(DWS)網路流控與管控效果》,作者:門前一棵葡萄樹。

上一篇博文GaussDB(DWS)網路調度與隔離管控能力,我們詳細介紹了GaussDB網路調度邏輯,並簡單介紹瞭如何應用網路隔離管控能力。本篇博文主要介紹GaussDB(DWS)網路流控能力,並對其管控效果進行驗證。

一、網路過載影響分析

網路過載對性能的影響主要體現在兩方面:

  1. 網路調度對性能的影響,性能影響原因分析與GaussDB網路調度詳見博客:GaussDB(DWS)網路調度與隔離管控能力
  2. TCP緩存對性能的影響,本篇博客主要分析TCP緩存對性能的影響,並介紹GaussDB如何通過流控實現對TCP緩存的控制。

眾所周知,TCP是一種面向連接的可靠的傳輸協議,為了保證數據傳輸的可靠,發送方發送的每一個數據包,接收方都需要向發送方回覆一個應答,如果發送失敗,則進行重傳。上述機制保證了數據傳輸的可靠性,但是缺點也是比較明顯的:發送方每發送一個數據包都需要等待接收方確認,接收方確認接收後再發送下一個數據包,兩次發送之間的時間間隔取決於數據包收發時延和接收端處理能力,這個時間間隔越大,通信效率越低。為瞭解決這個問題,TCP引入了視窗的概念,所謂的視窗其實是操作系統開闢緩存空間用於收發數據包緩存,以提高通信效率,提升網路吞吐量,詳細原理可參考TCP滑動視窗機制。

TCP緩存解決了TCP協議通信效率低的問題,但是網路過載情況下,TCP緩存一般比較高,這就導致高優業務發送數據包時,需要等待緩存區中數據全部發送完成後,才能發送高優業務的數據包,這個等待時間,我們稱之為發送時延。顯而易見,網路帶寬不變的情況下,TCP緩存越大,發送時延也就越大。

假設網路帶寬1GB,TCP緩存中有2MB數據,則TCP緩存中數據全部發送出去的時間 = 2/1024*1000 = 1.95ms,考慮到接收方數據處理和應答時延,實際發送時延在2~4ms之間。如果高優作業每發送一個數據包都需要等待2~4ms的話,這個時間累積起來還是非常恐怖的。

實驗室環境下,構造網路過載場景,測試TCP緩存對業務性能的影響,測試環境配置如下:

使用大表broadcast作為背景壓力,兩個表簡單關聯作為正常業務進行測試,測試數據如下:

註:為了更直觀地體現TCP緩存對性能的影響,我們使用相對無背景壓力增加的執行時間作為性能裂化指標。

背景壓力測試過程中TCP緩存持續高達2MB以上,從上述測試數據看,單純的網路調度無法徹底解決網路過載對業務性能的影響。其他環境參數不變,測試TCP緩存對性能的影響:

從上述測試數據以及TCP緩存預設配置的測試數據看,無論是否進行網路管控,都是TCP緩存越大,性能越差。到這裡我們基本可以確定,網路過載場景下應用網路調度後,TCP緩存是性能影響的關鍵點,但是直接調整TCP緩存區配置會影響到網路整體吞吐量和通信延遲,因此需要採用其他技術控制TCP緩存大小在一定範圍內。

二、GaussDB網路流控

2.1 網路限流演算法

限流是保護系統穩定的三把利器(限流、緩存、降級)之一。限流可以是限制併發,也可以是限制資源使用;可以保護自己,也可以保護別人。資料庫混合負載場景下,限流可以防止低優業務占用過多資源,預防資源過載,保證高優業務性能不受大幅影響。常見的限流演算法有計數限流、漏桶演算法和令牌桶演算法:

  1. 計數限流:通過對一個限流周期內的請求數量進行限制,實現限流的目的。在一個限流周期內,可以限制請求不超限,但是在兩個限流周期的相鄰時間,存在臨界問題,可能出現瞬時流量超限的情況。
  2. 漏桶限流:按照固定速率消費請求,限制單位時間內可以發送的請求量;請求先放入桶(隊列)中,漏桶按照固定速率出水,可以防止突發流量。
  3. 令牌桶限流:服務提供者按照固定速率向令牌桶中加入令牌,令牌總量達到閾值則不再添加;請求消費時從令牌桶中獲取一定數量令牌,如果令牌不足,則觸發拒絕策略,令牌桶允許短時突發流量。

2.2 網路流控實現

GaussDB網路流控主要用於防止網路欠佳SQL引髮網絡持續過載,預防TCP緩存持續飆高,引髮網絡發送延遲過大,進而導致高優業務網路請求不能及時發送,影響高優業務性能。對於正常業務併發過大導致的TCP緩存飆高,建議採用查詢調度限制併發的方法進行解決。網路欠佳SQL的網路流控基於網路調度中的低優隊列設計實現,採用類漏桶演算法實現。

新增GUC參數low_priority_bandwidth(預設值:256MB)用於限制低優隊列可以占用的網路帶寬。這個參數有兩層含義(假設採用預設配置):

  • 低優隊列網路傳輸速率不超過256MB/s。
  • 1ms內允許傳輸的數據量不超過256KB(256MB/s≈256KB/ms),保證TCP緩存中低優隊列數據不超過256KB,防止低優隊列導致TCP緩存過高導致高優業務性能大幅劣化。

低優隊列網路帶寬的設置需要充分考慮網路環境和集群部署情況,設置過大可能起不到網路流控效果,設置過小可能導致低優業務性能下降過大。例如10GE網路,3節點12DN環境,低優隊列網路帶寬不應高於256MB,在此基礎上低優隊列帶寬配置越低,限流效果越好,對高優業務性能影響也就越小;低優隊列網路帶寬配置接近網路上限情況下,網路欠佳SQL併發越大,限流效果越差,例如10GE網路,3節點12DN環境,低優隊列限流256MB情況下,大表broadcast併發15個以上時,網路限流效果開始下降。

2.3 流控效果驗證

測試環境配置:

  • 網卡:10GE
  • CPU:72核
  • 記憶體:350GB
  • 集群:3節點12DN,每個節點4個DN
  • low_priority_bandwidth:256

設置異常規則對查詢運行超過1min,且網路帶寬占用超過128MB(單DN,5s平均傳輸速率)的作業執行降級操作:

CREATE EXCEPT RULE bandwidth_rule1 WITH(bandwidth=128, ELAPSEDTIME=60, action='penalty');

創建資源池rp1,關聯上述異常規則:

CREATE RESOURCE POOL rp1 WITH(EXCEPT_RULE='bandwidth_rule1');

創建用戶user1關聯資源池rp1:

CREATE USER user1 RESOURCE POOL 'rp1' PASSWORD 'xxxxxxxx';

用戶user1執行查詢滿足“運行時間超過1min,且占用帶寬超過128MB”規則時,查詢被降級,降級後該查詢網路請求由低優隊列調度。

使用user1執行以下測試驗證網路限流效果:

  • 創建示例表並導入數據
// 背景壓力SQL使用的表 
CREATE TABLE wt1(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1);
CREATE TABLE wt2(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1);
INSERT INTO wt1 select generate_series(1,10000), generate_series(1,10000),repeat('a',900), repeat('b',6888);
INSERT INTO wt2 select * from wt1;
INSERT INTO wt1 select * from wt1; // 連續執行多次,導入3GB以上數據
// 高優業務SQL使用的表
CREATE TABLE wt3(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1);
CREATE TABLE wt4(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1);
INSERT INTO wt3 select generate_series(1,10000), generate_series(1,10000),repeat('a',900), repeat('b',6888);
INSERT INTO wt4 select * from wt3;
  • 使用以下SQL作為背景壓力
select count(1) from (select /*+ broadcast(wt1)*/ wt1.c1,wt1.c2 from wt1, wt2 where wt1.c2 = wt2.c2);
  • 使用以下SQL作為高優業務進行性能測試驗證
select count(1) from (select /*+ broadcast(wt3)*/ wt3.c1,wt3.c2 from wt3, wt4 where wt3.c2 = wt4.c2);
  • 測試不同網路背景壓力情況下(並行不同數量的背景壓力SQL),分別測試無網路管控和背景壓力降級的性能數據,記錄SQL執行完成時間。

從性能測試數據可以看出:

  • 不進行網路管控,網路過載情況下,業務性能裂化明顯,其中10個背景壓力下裂化達55倍。
  • 不進行網路管控情況下,網路背景壓力越大,業務性能越差。
  • 背景壓力降級後,不同背景壓力情況下,業務性能變化不明顯。
  • 背景壓力降級後,業務性能裂化基本可控,不再大幅裂化。

背景壓力降級後,業務性能還是有劣化,主要原因是流控只能降低TCP緩存,而不能完全消除,想要完全消除背景壓力對業務性能的影響,可以配合使用終止異常規則,在識別網路欠佳SQL後將其終止。

從測試驗證效果看,降級異常規則配合低優隊列網路流控,可以有效控制背景壓力對業務性能的影響,保證網路欠佳SQL不會導致高優業務性能大幅劣化。

參考:

https://www.cnblogs.com/niumoo/p/16007224.html 

https://xie.infoq.cn/article/4a0acdd12a0f6dd4a53e0472c  

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一 golang基礎知識 Go(又稱 Golang)是 Google 的 Robert Griesemer,Rob Pike 及 Ken Thompson 開發的一種電腦編程語言語言。 設計初衷 Go語言是谷歌推出的一種的編程語言,可以在不損失應用程式性能的情況下降低代碼的複雜性。谷歌首席軟體工程 ...
  • 接上文 4、條件分支控制流 避免分支嵌套,異常放在代碼片段最前面 4.1、歸約函數 4.2、條件表達式的封裝避免過長而導致可讀性下降 4.3、德摩根定律 4.4、and、or優先順序 4.5、or短路效應 4.6、消失的分支 4.6.1、二分查找演算法 4.6.2、字典演算法 5、異常錯誤處理 無需多言 ...
  • ChatGPT很強大,可以幫我們處理很多問題,但這些問題的答案的正確性您是否有考證過呢? 昨晚,DD就收到了一個有趣的反饋: 提問:有什麼關於數據許可權設計的資料推薦嗎? ChatGPT居然介紹了一本根本不存在的書《數據許可權設計與實現》,作者居然還是我... 那麼你在使用ChatGPT的時候,有碰到過 ...
  • 本文介紹將Windows電腦中的Administrator、網路、回收站等系統自帶桌面圖標取消顯示或恢復顯示的方法。 在Windows10電腦中,一般在桌面上預設會顯示如下所示的一些系統自帶圖標。 然而,在上述這些圖標中,有一些我們可能相對而言使用的頻率比較低,比如網路圖標,以及上圖中最上面的Adm ...
  • 本文源碼部分基於內核 5.4 版本討論 在經過上篇文章 《從內核源碼看 slab 記憶體池的創建初始化流程》 的介紹之後,我們最終得到下麵這幅 slab cache 的完整架構圖: 本文筆者將帶大家繼續從內核源碼的角度繼續拆解 slab cache 的實現細節,接下來筆者會基於上面這幅 slab ca ...
  • 哈嘍大家好我是鹹魚,在《Linux 記憶體管理 pt.1》中我們學習了什麼是物理記憶體、虛擬記憶體,瞭解了記憶體映射、缺頁異常等內容 那麼今天我們來接著學習 Linux 記憶體管理中的多級頁表和大頁 多級頁表&大頁 在《Linux 記憶體管理 pt.1》中我們知道了內核為每個進程都維護了一張頁表,這張頁表用來記 ...
  • 在MySQL中,這幾個都是統計操作,很多人在使用的時候,都使用的是count(1),這有沒有問題?使用正確?達到了統計效果? 我們從效果和效率兩方面來分析下 執行效果 count(*) 包括了所有的列,在統計時不會忽略列值為null的數據count(1) 用1表示代碼行,在統計時不會忽略列值為nul ...
  • 4月20日,袋鼠雲成功舉行了以“數實融合,韌性生長”為主題的2023春季生長大會。會上重磅發佈了袋鼠雲生態伙伴計劃——“飛躍計劃2.0”,從商機、產品、聯合方案及數據業務服務層面,與合作伙伴強強聯手,共同打造數字化生態,同時在聯合營銷、渠道政策、賦能培訓、產品開放、技術服務、交付實施等方面全面升級夥 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...