過億雲資源運維管控難?華為雲CloudMap帶你喝著咖啡做運維

来源:https://www.cnblogs.com/huaweiyun/archive/2023/03/31/17275815.html
-Advertisement-
Play Games

摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。 本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCl ...


摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCloudAI 。

隨著雲計算產業的蓬勃發展,站點數字化進程方興未艾,如何管理雲站點中數目眾多的雲資源和日益複雜的關係數據,通過數字化技術提前識別和發現現網風險,保證現網不出重大事故成為當前SRE面臨的巨大挑戰。面對海量業務和運維數據,如何構建站點級數字孿生平臺,讓數據發揮自身價值為SRE所用,是邁入DataOps的我們亟需解決的問題。為此,華為雲站點數字化平臺CloudMap(以下簡稱“九洲平臺CloudMap”)攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

1、傳統雲資源運維面臨的挑戰

傳統的雲資源的運維存在諸多問題:對風險的管控仍然依賴人工而不是工具系統,風火水電基礎設施在遇到問題時因無法定位影響只能全局管控,使影響面無故擴大。由於缺乏雲資源的拓撲信息,部分資源依賴獲取不到會導致許多問題的擱置……提升雲資源的自動化運維能力,面臨諸多挑戰:

缺乏拓撲信息,依賴分析難

不同的雲資源(如租戶信息、雲服務信息、機櫃機房信息)來源於不同的系統中,從軟體層面的雲服務,到硬體層面的機房機櫃等,都可能出現各種各樣的問題,並且不同的雲服務之間存在著一些依賴關係,一個雲服務出問題可能影響其他雲服務。

自動化程度低,問題定位依賴人工

即使擁有這些依賴關係並存儲在配置管理資料庫中,傳統運維手段也只能定位問題節點,對於問題的爆炸半徑(如問題節點依賴的機櫃機房信息、或者受到其依賴的其他雲服務)往往要依賴手工定位。

運維訴求雜,查詢類型多

此外運維例行維護、故障定位需要進行類型繁多的查詢,既需要有實時性要求的單點深度鏈路查詢支撐運維,也需要全局類鏈路統計等偏離線任務的查詢支撐下游任務。

2、九洲平臺CloudMap的解決方案

圖 1 九洲平臺CloudMap數據概覽

九洲平臺CloudMap攜手華為雲圖引擎GES完成了億級空間數據構建,通過租戶資源拓撲構建、網路流量路徑分析、服務動態依賴發現打造全鏈路可視能力,構築基於站點視角的數字化平臺,實現分鐘級問題定界。

圖 2 雲上資源拓撲關係示意圖

2.1 租戶資源拓撲構建

租戶資源拓撲是將實體抽象成與其大小、形狀無關的“點”,而把連接實體的線路抽象成“線”。CloudMap通過整合各類系統中的數據信息,將華為雲的租戶與其相關租賃的物理機、虛擬機進行關係的構建並存儲到華為雲圖引擎GES中,構建租戶資源拓撲,使得依賴分析成為可能。在租戶出現問題時第一時間能夠通過“線”溯源回對應的租賃機器,並快速定位和解決其中的問題。

2.2 網路流量路徑分析

華為雲作為國內TOP雲服務廠商,每日網路流量數據是比較龐大的,對於網路流量路徑的管理和可視就如百度地圖之於道路交通一樣重要。而在運維場景下,掌握了網路流量路徑可以進一步的補充由基礎設施、基礎服務到高階服務之間的鏈路關係。CloudMap通過將請求流量進行監控,繪製出一個整體、清晰的物理和虛擬網路路徑,可以準確截斷問題的蔓延,提高自動化運維水平。

2.3 服務動態依賴發現

服務依賴發現是發現分散式軟體系統中各組件依賴關係的過程,隨著華為雲的規模擴張,服務往往會被拆分為多個子服務。分散式軟體系統通過不同子服務之間的組合,提供了穩定多樣化的服務。與此同時,由於這些錯綜複雜的依賴關係,也伴隨著很多連鎖反應。其中最經典的案例就是由於單個服務的故障導致其在分散式軟體系統中快速傳播,導致大量的服務失效。在華為雲的日常運維中,掌握各個服務的動態依賴是讓雲穩定可靠不可或缺的一項技術,它關係到了能否快速的找到保障服務的各個關聯服務,避免其他服務引火燒身。CloudMap通過對服務間依賴的動態探測,構造全鏈路微服務依賴關係;同時藉助GES的多跳查詢能力,及時定位單服務問題的影響範圍,避免大量服務失效,解決爆炸半徑求解難的問題。

圖 3 服務資源視圖查詢示例

3、華為雲圖引擎GES助力CloudMap高效檢索圖數據

從數據入庫到計算查詢,華為雲圖引擎GES為九洲平臺CloudMap的存儲、查詢和分析提供了一站式解決方案。

3.1 圖數據建模

  1. 在複雜、龐大數據量的背景下很難使用傳統的結構化資料庫進行數據建模,圖引擎幫助快速構建點到點、點到邊之間的數據建模;
  2. 從基礎設施到雲服務,使用圖引擎構建全棧元數據,創建了過億的點邊關係,同時這些點、邊支持增加屬性機制,讓每個點、邊都能存儲對應的屬性;
  3. 數億級屬性數據實現小時級數據導入能力,保證了數據的時效性。

圖 4 簡化後的元數據截選

3.2 多樣介面能力

華為雲圖引擎GES提供了豐富的API介面查詢能力,CloudMap通過調用GES API,實現介面化的查詢邏輯。目前CloudMap有數十個查詢請求通過GES的Cypher、PipelineQuery、PathQuery等介面完成,這些請求響應和返回格式統一,便於處理,簡化了CloudMap的處理邏輯,降低了運維訴求雜,查詢類型多帶來的業務開發成本。查詢請求的高效響應,讓長鏈路的空間關係數據得以快速查詢並消費。

3.3 計算分析

  • 秒級響應能力:在圖引擎的強大算力支持下,九洲平臺CloudMap實現了多點、多跳查詢的能力,在複雜的空間關係中快速、準確的找到需要的數據及關係。其中利用業界領先的技術,圖引擎將大量6-8跳查詢的響應控制在秒級,使得CloudMap進行實時故障影響面分析、設備依賴關係查詢成為可能;
  • 離線計算能力:在對於需要龐大計算量、大量數據的分析型任務中,圖引擎提供了非同步任務能力,通過提前執行離線查詢/演算法任務並緩存結果,保證了結果獲取的效率,支撐了CloudMap向下游應用提供數據;
  • 強大索引機制:圖引擎支持像關係型資料庫一樣的索引構建能力,可以基於label、屬性等進行索引創建,實現全圖屬性過濾任務的快速響應;
  • 穩定可靠的查詢能力:由於數據量大、查詢鏈路長的原因,在查詢過程中往往會使用大量記憶體,圖引擎通過記憶體管理技術控制總記憶體使用量,讓查詢穩定可靠。

圖 5 CloudMap數據示例

4、九洲平臺CloudMap的應用

作為站點數字化平臺,九洲平臺CloudMap在圖引擎GES上搭建運維圖譜圖模型,建立站點空間數據關係。通過疊加空間數據和運維作業數據,從而打破數據孤島、消除數據斷裂點,形成運維知識圖譜,釋放數據價值,助力故障快速定位定界:

  • 空間數據:通過提供華為雲站點三類空間數據(租戶資源拓撲、網路流量路徑與服務架構依賴),提供從租戶資源實例、物理網路到基礎設施風火水電等全局視野,支撐快速識別服務影響與租戶影響範圍;
  • 知識圖譜:基於以上空間數據,結合告警、變更、監控與事件等核心運維數據,通過整合整理,再提取出故障線索,形成發現即定界能力,提升黑盒和自愈恢復觸達效率。
  • 專家經驗:在各個運維場景下不斷固化專家經驗併進行實踐和沉澱,使得專家經驗真正使能運維數據。

截止目前,CloudMap空間關係數據已覆蓋30+雲服務,在分散式緩存服務DCS、雲資料庫服務RDS、文檔資料庫服務DDS和大數據服務MRS等高階服務故障快恢場景應用落地。除此之外,CloudMap還為站點風控、變更風控、故障快恢等多個運維場景提供了數據底座和計算能力,極大提升了現網運維效率,為華為雲穩定可靠,為SRE確定性運維而持續努力。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:MQTT 1、MQTT協議說明 ( Message Queuing Telemetry Transport)消息隊列傳輸探測,一種基於==發佈/訂閱模式==的輕量級消息傳輸協議 2、MQTT協議來源 在1999年的時候,Andy Stanford-Clark和 Arlen Nipper需要一種通 ...
  • 安裝與配置 1. 安裝Squid代理伺服器軟體: sudo yum install squid 2. 配置Squid代理伺服器: #http_access allow localnet 將其改為: http_access allow all 然後找到以下行: #http_port 3128 將其改為 ...
  • #ubuntu16.04升級python3.7.1教程 準備 sudo apt-get install --reinstall zlibc zlib1g zlib1g-dev sudo apt-get install libffi-dev libssl-dev libreadline-dev -y ...
  • Linux 文件許可權 文件許可權和文件類型共有10個字元組成,這10個字元可以分成三部分 $$ d+rwx+rwx+rw-\d:表示文件類型\2-4位(第一組rwx):表示文件所有者的對文件的許可權\5-7位(第二組rwx):表示文件所有者所在組的用戶對文件的許可權\8-10位(rw-):表示其他用戶對文 ...
  • 一、項目要求 1、創建role,通過role完成項目(可能需要多個role) 2、部署nginx調度器(node2主機) 3、部署2台lnmp伺服器(node3,node4主機) 4、部署mariadb資料庫(node5主機) 主要用的ansible實現自動化部署,ansible的安裝教程省略,控制 ...
  • 昨天看到一個MySQL資料庫設計原則:強烈建議表的主鍵使用整型自增主鍵。為啥呢? 要弄明白這個問題首先需要瞭解MySQL是如何維護數據的,你需要知道以下幾點: MySQL的InnoDB存儲引擎是在B+樹上維護表數據的 B+樹是一種平衡樹 在這棵樹上,每個節點在電腦中叫做數據頁,預設16k 樹的葉子 ...
  • 一、基本概念 ——後續的內容將會記錄作者在計科學習內容 DB(資料庫):存儲數據的倉庫,數據是有組織進行存儲 DBMS(資料庫管理系統):操縱和管理資料庫的大型軟體 SQL:操縱關係資料庫的編程語言,是一套標準 有Mysql,Oracle,SQLSever,PostgreSQl RDBMS(關係型數 ...
  • 簡述 Db2 是一款具有悠久歷史的關係型資料庫,由 IBM 公司開發和維護,廣泛應用於金融級業務場景。 CloudCanal 近期提供了 Db2 為源端的數據遷移同步 功能,用戶可以便利地將 Db2 中數據實時同步到其他資料庫,實現數據更廣泛、更實時的應用。 功能介紹 目標資料庫和能力 | 目標端數 ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...