過億雲資源運維管控難?華為雲CloudMap帶你喝著咖啡做運維

来源:https://www.cnblogs.com/huaweiyun/archive/2023/03/31/17275815.html
-Advertisement-
Play Games

摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。 本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCl ...


摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCloudAI 。

隨著雲計算產業的蓬勃發展,站點數字化進程方興未艾,如何管理雲站點中數目眾多的雲資源和日益複雜的關係數據,通過數字化技術提前識別和發現現網風險,保證現網不出重大事故成為當前SRE面臨的巨大挑戰。面對海量業務和運維數據,如何構建站點級數字孿生平臺,讓數據發揮自身價值為SRE所用,是邁入DataOps的我們亟需解決的問題。為此,華為雲站點數字化平臺CloudMap(以下簡稱“九洲平臺CloudMap”)攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

1、傳統雲資源運維面臨的挑戰

傳統的雲資源的運維存在諸多問題:對風險的管控仍然依賴人工而不是工具系統,風火水電基礎設施在遇到問題時因無法定位影響只能全局管控,使影響面無故擴大。由於缺乏雲資源的拓撲信息,部分資源依賴獲取不到會導致許多問題的擱置……提升雲資源的自動化運維能力,面臨諸多挑戰:

缺乏拓撲信息,依賴分析難

不同的雲資源(如租戶信息、雲服務信息、機櫃機房信息)來源於不同的系統中,從軟體層面的雲服務,到硬體層面的機房機櫃等,都可能出現各種各樣的問題,並且不同的雲服務之間存在著一些依賴關係,一個雲服務出問題可能影響其他雲服務。

自動化程度低,問題定位依賴人工

即使擁有這些依賴關係並存儲在配置管理資料庫中,傳統運維手段也只能定位問題節點,對於問題的爆炸半徑(如問題節點依賴的機櫃機房信息、或者受到其依賴的其他雲服務)往往要依賴手工定位。

運維訴求雜,查詢類型多

此外運維例行維護、故障定位需要進行類型繁多的查詢,既需要有實時性要求的單點深度鏈路查詢支撐運維,也需要全局類鏈路統計等偏離線任務的查詢支撐下游任務。

2、九洲平臺CloudMap的解決方案

圖 1 九洲平臺CloudMap數據概覽

九洲平臺CloudMap攜手華為雲圖引擎GES完成了億級空間數據構建,通過租戶資源拓撲構建、網路流量路徑分析、服務動態依賴發現打造全鏈路可視能力,構築基於站點視角的數字化平臺,實現分鐘級問題定界。

圖 2 雲上資源拓撲關係示意圖

2.1 租戶資源拓撲構建

租戶資源拓撲是將實體抽象成與其大小、形狀無關的“點”,而把連接實體的線路抽象成“線”。CloudMap通過整合各類系統中的數據信息,將華為雲的租戶與其相關租賃的物理機、虛擬機進行關係的構建並存儲到華為雲圖引擎GES中,構建租戶資源拓撲,使得依賴分析成為可能。在租戶出現問題時第一時間能夠通過“線”溯源回對應的租賃機器,並快速定位和解決其中的問題。

2.2 網路流量路徑分析

華為雲作為國內TOP雲服務廠商,每日網路流量數據是比較龐大的,對於網路流量路徑的管理和可視就如百度地圖之於道路交通一樣重要。而在運維場景下,掌握了網路流量路徑可以進一步的補充由基礎設施、基礎服務到高階服務之間的鏈路關係。CloudMap通過將請求流量進行監控,繪製出一個整體、清晰的物理和虛擬網路路徑,可以準確截斷問題的蔓延,提高自動化運維水平。

2.3 服務動態依賴發現

服務依賴發現是發現分散式軟體系統中各組件依賴關係的過程,隨著華為雲的規模擴張,服務往往會被拆分為多個子服務。分散式軟體系統通過不同子服務之間的組合,提供了穩定多樣化的服務。與此同時,由於這些錯綜複雜的依賴關係,也伴隨著很多連鎖反應。其中最經典的案例就是由於單個服務的故障導致其在分散式軟體系統中快速傳播,導致大量的服務失效。在華為雲的日常運維中,掌握各個服務的動態依賴是讓雲穩定可靠不可或缺的一項技術,它關係到了能否快速的找到保障服務的各個關聯服務,避免其他服務引火燒身。CloudMap通過對服務間依賴的動態探測,構造全鏈路微服務依賴關係;同時藉助GES的多跳查詢能力,及時定位單服務問題的影響範圍,避免大量服務失效,解決爆炸半徑求解難的問題。

圖 3 服務資源視圖查詢示例

3、華為雲圖引擎GES助力CloudMap高效檢索圖數據

從數據入庫到計算查詢,華為雲圖引擎GES為九洲平臺CloudMap的存儲、查詢和分析提供了一站式解決方案。

3.1 圖數據建模

  1. 在複雜、龐大數據量的背景下很難使用傳統的結構化資料庫進行數據建模,圖引擎幫助快速構建點到點、點到邊之間的數據建模;
  2. 從基礎設施到雲服務,使用圖引擎構建全棧元數據,創建了過億的點邊關係,同時這些點、邊支持增加屬性機制,讓每個點、邊都能存儲對應的屬性;
  3. 數億級屬性數據實現小時級數據導入能力,保證了數據的時效性。

圖 4 簡化後的元數據截選

3.2 多樣介面能力

華為雲圖引擎GES提供了豐富的API介面查詢能力,CloudMap通過調用GES API,實現介面化的查詢邏輯。目前CloudMap有數十個查詢請求通過GES的Cypher、PipelineQuery、PathQuery等介面完成,這些請求響應和返回格式統一,便於處理,簡化了CloudMap的處理邏輯,降低了運維訴求雜,查詢類型多帶來的業務開發成本。查詢請求的高效響應,讓長鏈路的空間關係數據得以快速查詢並消費。

3.3 計算分析

  • 秒級響應能力:在圖引擎的強大算力支持下,九洲平臺CloudMap實現了多點、多跳查詢的能力,在複雜的空間關係中快速、準確的找到需要的數據及關係。其中利用業界領先的技術,圖引擎將大量6-8跳查詢的響應控制在秒級,使得CloudMap進行實時故障影響面分析、設備依賴關係查詢成為可能;
  • 離線計算能力:在對於需要龐大計算量、大量數據的分析型任務中,圖引擎提供了非同步任務能力,通過提前執行離線查詢/演算法任務並緩存結果,保證了結果獲取的效率,支撐了CloudMap向下游應用提供數據;
  • 強大索引機制:圖引擎支持像關係型資料庫一樣的索引構建能力,可以基於label、屬性等進行索引創建,實現全圖屬性過濾任務的快速響應;
  • 穩定可靠的查詢能力:由於數據量大、查詢鏈路長的原因,在查詢過程中往往會使用大量記憶體,圖引擎通過記憶體管理技術控制總記憶體使用量,讓查詢穩定可靠。

圖 5 CloudMap數據示例

4、九洲平臺CloudMap的應用

作為站點數字化平臺,九洲平臺CloudMap在圖引擎GES上搭建運維圖譜圖模型,建立站點空間數據關係。通過疊加空間數據和運維作業數據,從而打破數據孤島、消除數據斷裂點,形成運維知識圖譜,釋放數據價值,助力故障快速定位定界:

  • 空間數據:通過提供華為雲站點三類空間數據(租戶資源拓撲、網路流量路徑與服務架構依賴),提供從租戶資源實例、物理網路到基礎設施風火水電等全局視野,支撐快速識別服務影響與租戶影響範圍;
  • 知識圖譜:基於以上空間數據,結合告警、變更、監控與事件等核心運維數據,通過整合整理,再提取出故障線索,形成發現即定界能力,提升黑盒和自愈恢復觸達效率。
  • 專家經驗:在各個運維場景下不斷固化專家經驗併進行實踐和沉澱,使得專家經驗真正使能運維數據。

截止目前,CloudMap空間關係數據已覆蓋30+雲服務,在分散式緩存服務DCS、雲資料庫服務RDS、文檔資料庫服務DDS和大數據服務MRS等高階服務故障快恢場景應用落地。除此之外,CloudMap還為站點風控、變更風控、故障快恢等多個運維場景提供了數據底座和計算能力,極大提升了現網運維效率,為華為雲穩定可靠,為SRE確定性運維而持續努力。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:MQTT 1、MQTT協議說明 ( Message Queuing Telemetry Transport)消息隊列傳輸探測,一種基於==發佈/訂閱模式==的輕量級消息傳輸協議 2、MQTT協議來源 在1999年的時候,Andy Stanford-Clark和 Arlen Nipper需要一種通 ...
  • 安裝與配置 1. 安裝Squid代理伺服器軟體: sudo yum install squid 2. 配置Squid代理伺服器: #http_access allow localnet 將其改為: http_access allow all 然後找到以下行: #http_port 3128 將其改為 ...
  • #ubuntu16.04升級python3.7.1教程 準備 sudo apt-get install --reinstall zlibc zlib1g zlib1g-dev sudo apt-get install libffi-dev libssl-dev libreadline-dev -y ...
  • Linux 文件許可權 文件許可權和文件類型共有10個字元組成,這10個字元可以分成三部分 $$ d+rwx+rwx+rw-\d:表示文件類型\2-4位(第一組rwx):表示文件所有者的對文件的許可權\5-7位(第二組rwx):表示文件所有者所在組的用戶對文件的許可權\8-10位(rw-):表示其他用戶對文 ...
  • 一、項目要求 1、創建role,通過role完成項目(可能需要多個role) 2、部署nginx調度器(node2主機) 3、部署2台lnmp伺服器(node3,node4主機) 4、部署mariadb資料庫(node5主機) 主要用的ansible實現自動化部署,ansible的安裝教程省略,控制 ...
  • 昨天看到一個MySQL資料庫設計原則:強烈建議表的主鍵使用整型自增主鍵。為啥呢? 要弄明白這個問題首先需要瞭解MySQL是如何維護數據的,你需要知道以下幾點: MySQL的InnoDB存儲引擎是在B+樹上維護表數據的 B+樹是一種平衡樹 在這棵樹上,每個節點在電腦中叫做數據頁,預設16k 樹的葉子 ...
  • 一、基本概念 ——後續的內容將會記錄作者在計科學習內容 DB(資料庫):存儲數據的倉庫,數據是有組織進行存儲 DBMS(資料庫管理系統):操縱和管理資料庫的大型軟體 SQL:操縱關係資料庫的編程語言,是一套標準 有Mysql,Oracle,SQLSever,PostgreSQl RDBMS(關係型數 ...
  • 簡述 Db2 是一款具有悠久歷史的關係型資料庫,由 IBM 公司開發和維護,廣泛應用於金融級業務場景。 CloudCanal 近期提供了 Db2 為源端的數據遷移同步 功能,用戶可以便利地將 Db2 中數據實時同步到其他資料庫,實現數據更廣泛、更實時的應用。 功能介紹 目標資料庫和能力 | 目標端數 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 插件化的需求主要源於對軟體架構靈活性的追求,特別是在開發大型、複雜或需要不斷更新的軟體系統時,插件化可以提高軟體系統的可擴展性、可定製性、隔離性、安全性、可維護性、模塊化、易於升級和更新以及支持第三方開發等方面的能力,從而滿足不斷變化的業務需求和技術挑戰。 一、插件化探索 在WPF中我們想要開 ...
  • 歡迎ReaLTaiizor是一個用戶友好的、以設計為中心的.NET WinForms項目控制項庫,包含廣泛的組件。您可以使用不同的主題選項對項目進行個性化設置,並自定義用戶控制項,以使您的應用程式更加專業。 項目地址:https://github.com/Taiizor/ReaLTaiizor 步驟1: ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • Channel 是乾什麼的 The System.Threading.Channels namespace provides a set of synchronization data structures for passing data between producers and consume ...
  • efcore如何優雅的實現按年分庫按月分表 介紹 本文ShardinfCore版本 本期主角: ShardingCore 一款ef-core下高性能、輕量級針對分表分庫讀寫分離的解決方案,具有零依賴、零學習成本、零業務代碼入侵適配 距離上次發文.net相關的已經有很久了,期間一直在從事java相關的 ...
  • 前言 Spacesniffer 是一個免費的文件掃描工具,通過使用樹狀圖可視化佈局,可以立即瞭解大文件夾的位置,幫助用戶處理找到這些文件夾 當前系統C盤空間 清理後系統C盤空間 下載 Spacesniffer 下載地址:https://spacesniffer.en.softonic.com/dow ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • 一、ReZero簡介 ReZero是一款.NET中間件 : 全網唯一開源界面操作就能生成API , 可以集成到任何.NET6+ API項目,無破壞性,也可讓非.NET用戶使用exe文件 免費開源:MIT最寬鬆協議 , 一直從事開源事業十年,一直堅持開源 1.1 純ReZero開發 適合.Net Co ...
  • 一:背景 1. 講故事 停了一個月沒有更新文章了,主要是忙於寫 C#內功修煉系列的PPT,現在基本上接近尾聲,可以回頭繼續更新這段時間分析dump的一些事故報告,有朋友微信上找到我,說他們的系統出現了大量的http超時,程式不響應處理了,讓我幫忙看下怎麼回事,dump也抓到了。 二:WinDbg分析 ...
  • 開始做項目管理了(本人3年java,來到這邊之後真沒想到...),天天開會溝通整理需求,他們講話的時候忙裡偷閑整理一下常用的方法,其實語言還是有共通性的,基本上看到方法名就大概能猜出來用法。出去打水的時候看到外面太陽好好,真想在外面坐著曬太陽,回來的時候好兄弟三年前送給我的鍵盤D鍵不靈了,在打"等待 ...