本文分享自華為雲社區《直播回顧 | 數倉資源管控理論已掌握,是時候實戰了》,作者:胡辣湯 。 混合負載場景下,如何高效運維資料庫,防止資料庫系統過載?GaussDB(DWS)資源管控為資料庫平穩可靠運行提供了哪些助力?本期《數倉專家手把手教您資源管控與運維實戰》的主題直播中,我們邀請到華為雲Gaus ...
本文分享自華為雲社區《直播回顧 | 數倉資源管控理論已掌握,是時候實戰了》,作者:胡辣湯 。
混合負載場景下,如何高效運維資料庫,防止資料庫系統過載?GaussDB(DWS)資源管控為資料庫平穩可靠運行提供了哪些助力?本期《數倉專家手把手教您資源管控與運維實戰》的主題直播中,我們邀請到華為雲GaussDB(DWS)技術佈道師呂鵬博,針對GaussDB(DWS) 資源管控的原理和系統運維實踐與開發者和伙伴朋友們展開交流互動。
GaussDB(DWS)軟體架構及運維挑戰
GaussDB(DWS)的核心組件主要有CN、DN及相應輔助組件GDS、OM、CM和GTM。本期直播中,資源管控主要聚焦CN和DN,CN是GaussDB(DWS)的協調節點,負責SQL語句的解析、優化及執行計劃的生成。DN是數據的存儲節點,負責執行SQL的執行計劃,並向CN返回執行結果。例如,業務應用下發了一條SQL語句給GaussDB(DWS)集群,它會先經過負載均衡,隨機分佈到某一個CN上,然後CN生成解析語句和相應的執行計劃,下發給DN執行,等DN執行完以後,會返回給CN,然後從CN返回給用戶。
GaussDB(DWS)採用的是shared nothing的一個架構,支持節點擴展,提升GaussDB(DWS)整體集群的一個性能。在數據倉庫的使用過程中,也面臨一些挑戰,比如:同時下發很多SQL語句,導致語句執行資源搶占,出現資料庫過載,致使大片SQL執行報錯;對於用戶而言,SQL語句下發後,執行過程是一個黑箱,無法看到語句執行情況和占用資源情況。因此可以使用資源管控的功能來解決這兩個挑戰。
GaussDB(DWS)資源管控功能全景圖
GaussDB(DWS)資源管控功能原理介紹
用戶下發SQL語句後,先經過負載管理,之後下發到DN上進行作業執行,在執行過程中會受到資源管控,此處資源管控主要包含CPU管控、空間管控等。另外在執行過程中,會有輔助線程進行數據採集,幫助用戶採集語句執行過程中實時占用的計算資源,包含CPU、記憶體、磁碟IO、網路等。同時GaussDB(DWS)提供了一些運維工具,比如TopSQL視圖、資源監控視圖用來分析定位問題。此外為了防止爛SQL影響集群整體性能,GaussDB(DWS)提供了異常規則這個功能。集群內部預設會有一些異常規則,同時也支持用戶自定義設置一些異常規則,比如說執行時長、排隊時長的多少,如果超過限制,會把作業停掉或者降級。負載管理會先經過一個全局併發隊列,然後再進入GaussDB(DWS)的資源池隊列,在這個過程中,負載管理把作業分為短查詢和長時查詢,短查詢亦稱為簡單查詢,長時查詢亦稱為複雜查詢。短查詢的功能開啟是為了提升用戶點查性能,提升運行效率。
負載管控:即查詢調度,包含基於併發的查詢調度和基於估算記憶體的查詢調度。通過查詢調度實現查詢的錯峰執行,防止併發過高引發資源爭搶嚴重,導致查詢堆積。
CPU管控:GaussDB(DWS)為用戶提供CPU管控的方式來調整用戶CPU的使用,稱為共用配額和專屬限額,其中:共用配額是給資源池按照百分比配置一定的權重,共用配額不限制資源池使用的CPU核,當某個CPU滿負載時,在該CPU上運行作業的資源池按照權重的比例搶占CPU時間片,其使用場景為CPU資源較少,想讓重要的業務搶占更多的CPU資源,促使高優作業優先運行。專屬限額,是按照百分比的方式分配CPU核給資源池使用,該資源池上運行的複雜作業只能在分配的CPU上運行,其使用場景為CPU資源比較充足,對業務的影響較敏感,需要關閉資源池短查詢加速開關。兩種管控方案各有其適用場景,需要具體場景具體分析。
記憶體管控: GaussDB(DWS)為用戶提供兩種記憶體管控方式,用戶可以根據業務需要,合理設置資源池級別的記憶體配比。針對傳統記憶體管理的弊端,GaussDB(DWS)設計實現了記憶體自適應技術,解除對work_mem的依賴,優化器依據統計信息對查詢使用記憶體進行估算,執行器執行SQL過程中,如果使用記憶體超過估算記憶體即觸發下盤;資源管理依據優化器估算的查詢記憶體,對查詢進行調度和管控。
空間管控:支持多個維度的空間管控能力,包含用戶空間管控、Schema空間管控、單SQL空間管控、磁碟空間管控等多維度空間管控能力。
網路管控:在分散式情況下,網路的優劣對查詢性能的影響至關重要,為此,GaussDB(DWS)提出優先順序+查分加權輪詢DWRR的演算法,來管控節點間網路流量。並通過異常規則限制用戶查詢,防止業務被網路擁塞影響。網路管控可以合理配置網路帶寬,平滑數據載入,避免擁塞。識別冗餘和低價值數據傳輸,限制其帶寬使用。同時可以為關鍵查詢賦予更高的網路資源優先順序。數據倉庫的網路流量管控對於優化數據載入,提高查詢響應,防止故障都有重要幫助。
GaussDB(DWS)資源運維工具
GaussDB(DWS)提供了諸多運維工具,提升問題定位和分析的能力,目前已集成了事前、事中、事後等多種運維手段,包含事前的Explain performance分析執行計劃,當作業運行後,可以通過pgxc_stat_activity分析活躍會話信息,pgxc_thread_wait_status分析線程等待信息,pgxc_wlm_session_statistics分析正在運行的作業信息等。當作業運行完畢後,也可以通過pgxc_wlm_session_info分析歷史語句的執行情況,pgxc_respool_resource_history分析歷史資源池的占用信息,pgxc_wlm_user_resource_history分析用戶維度的資源使用情況等。
這些運維視圖提供了對資料庫內部數據的訪問介面,可以獲取執行計劃、會話信息、性能統計等與運維相關的數據。無需瞭解複雜的內部存儲結構,直接查詢視圖表即可獲得所需信息。查詢成本低,不需要每次都全表掃描,提高了訪問效率。具有更好的封裝性,保護了資料庫內部元數據的安全。可以根據需要對返回信息進行過濾,使運維人員更方便地使用。通過join其他視圖表,可以獲得跨域的綜合信息用於分析。一些視圖包含了額外的洞察和統計,提供了優化和診斷的依據。使資料庫可以被更好地理解、管理和監控。總而言之,資料庫運維視圖極大地方便了資料庫的日常監控、性能調優、故障定位等管理工作,是資料庫運維的重要工具。
總體來說,資源管控可以提高資源利用率,保證服務質量,平滑高峰期壓力,實現多租戶隔離,優化資源分配策略,減少運維工作量,提升用戶體驗。具體而言:
- 資源管控可以通過監控和限制非核心業務對資源的占用來提高資源利用率;
- 為關鍵業務和重要查詢提供資源保障,防止資源不足影響服務質量;
- 針對數據載入和用戶查詢的周期性高峰,科學分配資源以平滑高峰期壓力;
- 實現不同用戶組或租戶之間的資源使用隔離和干擾防護;
- 通過資源監控及時發現潛在問題並快速響應;
- 根據實際情況調整資源分配,使資源規劃更合理;資源管控降低了資料庫調優和問題定位的人工需求,減少了運維工作量;
- 用戶可以直接感知到資源管控帶來的系統穩定性提升。
綜上所述,良好的資源管控機制可以大幅降低管理數據倉庫的人力成本,也提升了用戶對數據倉庫服務的信任度。
歡迎感興趣的開發者觀看直播回放,瞭解詳細信息。更多關於GaussDB(DWS)產品技術解析、數倉產品新特性的介紹,請關註GaussDB(DWS)論壇,技術博文分享、直播安排將第一時間發佈在GaussDB(DWS)論壇。
論壇鏈接:https://bbs.huaweicloud.com/forum/forum-598-1.html
直播回放鏈接:https://bbs.huaweicloud.com/live/DTT_live/202308291630.html
號外!
華為將於2023年9月20-22日,在上海世博展覽館和上海世博中心舉辦第八屆華為全聯接大會(HUAWEICONNECT 2023)。本次大會以“加速行業智能化”為主題,邀請思想領袖、商業精英、技術專家、合作伙伴、開發者等業界同仁,從商業、產業、生態等方面探討如何加速行業智能化。
我們誠邀您蒞臨現場,分享智能化的機遇和挑戰,共商智能化的關鍵舉措,體驗智能化技術的創新和應用。您可以:
- 在100+場主題演講、峰會、論壇中,碰撞加速行業智能化的觀點
- 參觀17000平米展區,近距離感受智能化技術在行業中的創新和應用
- 與技術專家面對面交流,瞭解最新的解決方案、開發工具並動手實踐
- 與客戶和伙伴共尋商機
感謝您一如既往的支持和信賴,我們熱忱期待與您在上海見面。
大會官網:https://www.huawei.com/cn/events/huaweiconnect
歡迎關註“華為雲開發者聯盟”公眾號,獲取大會議程、精彩活動和前沿乾貨。