過億雲資源運維管控難?華為雲CloudMap帶你喝著咖啡做運維

来源:https://www.cnblogs.com/huaweiyun/archive/2023/03/31/17275815.html
-Advertisement-
Play Games

摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。 本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCl ...


摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCloudAI 。

隨著雲計算產業的蓬勃發展,站點數字化進程方興未艾,如何管理雲站點中數目眾多的雲資源和日益複雜的關係數據,通過數字化技術提前識別和發現現網風險,保證現網不出重大事故成為當前SRE面臨的巨大挑戰。面對海量業務和運維數據,如何構建站點級數字孿生平臺,讓數據發揮自身價值為SRE所用,是邁入DataOps的我們亟需解決的問題。為此,華為雲站點數字化平臺CloudMap(以下簡稱“九洲平臺CloudMap”)攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

1、傳統雲資源運維面臨的挑戰

傳統的雲資源的運維存在諸多問題:對風險的管控仍然依賴人工而不是工具系統,風火水電基礎設施在遇到問題時因無法定位影響只能全局管控,使影響面無故擴大。由於缺乏雲資源的拓撲信息,部分資源依賴獲取不到會導致許多問題的擱置……提升雲資源的自動化運維能力,面臨諸多挑戰:

缺乏拓撲信息,依賴分析難

不同的雲資源(如租戶信息、雲服務信息、機櫃機房信息)來源於不同的系統中,從軟體層面的雲服務,到硬體層面的機房機櫃等,都可能出現各種各樣的問題,並且不同的雲服務之間存在著一些依賴關係,一個雲服務出問題可能影響其他雲服務。

自動化程度低,問題定位依賴人工

即使擁有這些依賴關係並存儲在配置管理資料庫中,傳統運維手段也只能定位問題節點,對於問題的爆炸半徑(如問題節點依賴的機櫃機房信息、或者受到其依賴的其他雲服務)往往要依賴手工定位。

運維訴求雜,查詢類型多

此外運維例行維護、故障定位需要進行類型繁多的查詢,既需要有實時性要求的單點深度鏈路查詢支撐運維,也需要全局類鏈路統計等偏離線任務的查詢支撐下游任務。

2、九洲平臺CloudMap的解決方案

圖 1 九洲平臺CloudMap數據概覽

九洲平臺CloudMap攜手華為雲圖引擎GES完成了億級空間數據構建,通過租戶資源拓撲構建、網路流量路徑分析、服務動態依賴發現打造全鏈路可視能力,構築基於站點視角的數字化平臺,實現分鐘級問題定界。

圖 2 雲上資源拓撲關係示意圖

2.1 租戶資源拓撲構建

租戶資源拓撲是將實體抽象成與其大小、形狀無關的“點”,而把連接實體的線路抽象成“線”。CloudMap通過整合各類系統中的數據信息,將華為雲的租戶與其相關租賃的物理機、虛擬機進行關係的構建並存儲到華為雲圖引擎GES中,構建租戶資源拓撲,使得依賴分析成為可能。在租戶出現問題時第一時間能夠通過“線”溯源回對應的租賃機器,並快速定位和解決其中的問題。

2.2 網路流量路徑分析

華為雲作為國內TOP雲服務廠商,每日網路流量數據是比較龐大的,對於網路流量路徑的管理和可視就如百度地圖之於道路交通一樣重要。而在運維場景下,掌握了網路流量路徑可以進一步的補充由基礎設施、基礎服務到高階服務之間的鏈路關係。CloudMap通過將請求流量進行監控,繪製出一個整體、清晰的物理和虛擬網路路徑,可以準確截斷問題的蔓延,提高自動化運維水平。

2.3 服務動態依賴發現

服務依賴發現是發現分散式軟體系統中各組件依賴關係的過程,隨著華為雲的規模擴張,服務往往會被拆分為多個子服務。分散式軟體系統通過不同子服務之間的組合,提供了穩定多樣化的服務。與此同時,由於這些錯綜複雜的依賴關係,也伴隨著很多連鎖反應。其中最經典的案例就是由於單個服務的故障導致其在分散式軟體系統中快速傳播,導致大量的服務失效。在華為雲的日常運維中,掌握各個服務的動態依賴是讓雲穩定可靠不可或缺的一項技術,它關係到了能否快速的找到保障服務的各個關聯服務,避免其他服務引火燒身。CloudMap通過對服務間依賴的動態探測,構造全鏈路微服務依賴關係;同時藉助GES的多跳查詢能力,及時定位單服務問題的影響範圍,避免大量服務失效,解決爆炸半徑求解難的問題。

圖 3 服務資源視圖查詢示例

3、華為雲圖引擎GES助力CloudMap高效檢索圖數據

從數據入庫到計算查詢,華為雲圖引擎GES為九洲平臺CloudMap的存儲、查詢和分析提供了一站式解決方案。

3.1 圖數據建模

  1. 在複雜、龐大數據量的背景下很難使用傳統的結構化資料庫進行數據建模,圖引擎幫助快速構建點到點、點到邊之間的數據建模;
  2. 從基礎設施到雲服務,使用圖引擎構建全棧元數據,創建了過億的點邊關係,同時這些點、邊支持增加屬性機制,讓每個點、邊都能存儲對應的屬性;
  3. 數億級屬性數據實現小時級數據導入能力,保證了數據的時效性。

圖 4 簡化後的元數據截選

3.2 多樣介面能力

華為雲圖引擎GES提供了豐富的API介面查詢能力,CloudMap通過調用GES API,實現介面化的查詢邏輯。目前CloudMap有數十個查詢請求通過GES的Cypher、PipelineQuery、PathQuery等介面完成,這些請求響應和返回格式統一,便於處理,簡化了CloudMap的處理邏輯,降低了運維訴求雜,查詢類型多帶來的業務開發成本。查詢請求的高效響應,讓長鏈路的空間關係數據得以快速查詢並消費。

3.3 計算分析

  • 秒級響應能力:在圖引擎的強大算力支持下,九洲平臺CloudMap實現了多點、多跳查詢的能力,在複雜的空間關係中快速、準確的找到需要的數據及關係。其中利用業界領先的技術,圖引擎將大量6-8跳查詢的響應控制在秒級,使得CloudMap進行實時故障影響面分析、設備依賴關係查詢成為可能;
  • 離線計算能力:在對於需要龐大計算量、大量數據的分析型任務中,圖引擎提供了非同步任務能力,通過提前執行離線查詢/演算法任務並緩存結果,保證了結果獲取的效率,支撐了CloudMap向下游應用提供數據;
  • 強大索引機制:圖引擎支持像關係型資料庫一樣的索引構建能力,可以基於label、屬性等進行索引創建,實現全圖屬性過濾任務的快速響應;
  • 穩定可靠的查詢能力:由於數據量大、查詢鏈路長的原因,在查詢過程中往往會使用大量記憶體,圖引擎通過記憶體管理技術控制總記憶體使用量,讓查詢穩定可靠。

圖 5 CloudMap數據示例

4、九洲平臺CloudMap的應用

作為站點數字化平臺,九洲平臺CloudMap在圖引擎GES上搭建運維圖譜圖模型,建立站點空間數據關係。通過疊加空間數據和運維作業數據,從而打破數據孤島、消除數據斷裂點,形成運維知識圖譜,釋放數據價值,助力故障快速定位定界:

  • 空間數據:通過提供華為雲站點三類空間數據(租戶資源拓撲、網路流量路徑與服務架構依賴),提供從租戶資源實例、物理網路到基礎設施風火水電等全局視野,支撐快速識別服務影響與租戶影響範圍;
  • 知識圖譜:基於以上空間數據,結合告警、變更、監控與事件等核心運維數據,通過整合整理,再提取出故障線索,形成發現即定界能力,提升黑盒和自愈恢復觸達效率。
  • 專家經驗:在各個運維場景下不斷固化專家經驗併進行實踐和沉澱,使得專家經驗真正使能運維數據。

截止目前,CloudMap空間關係數據已覆蓋30+雲服務,在分散式緩存服務DCS、雲資料庫服務RDS、文檔資料庫服務DDS和大數據服務MRS等高階服務故障快恢場景應用落地。除此之外,CloudMap還為站點風控、變更風控、故障快恢等多個運維場景提供了數據底座和計算能力,極大提升了現網運維效率,為華為雲穩定可靠,為SRE確定性運維而持續努力。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:MQTT 1、MQTT協議說明 ( Message Queuing Telemetry Transport)消息隊列傳輸探測,一種基於==發佈/訂閱模式==的輕量級消息傳輸協議 2、MQTT協議來源 在1999年的時候,Andy Stanford-Clark和 Arlen Nipper需要一種通 ...
  • 安裝與配置 1. 安裝Squid代理伺服器軟體: sudo yum install squid 2. 配置Squid代理伺服器: #http_access allow localnet 將其改為: http_access allow all 然後找到以下行: #http_port 3128 將其改為 ...
  • #ubuntu16.04升級python3.7.1教程 準備 sudo apt-get install --reinstall zlibc zlib1g zlib1g-dev sudo apt-get install libffi-dev libssl-dev libreadline-dev -y ...
  • Linux 文件許可權 文件許可權和文件類型共有10個字元組成,這10個字元可以分成三部分 $$ d+rwx+rwx+rw-\d:表示文件類型\2-4位(第一組rwx):表示文件所有者的對文件的許可權\5-7位(第二組rwx):表示文件所有者所在組的用戶對文件的許可權\8-10位(rw-):表示其他用戶對文 ...
  • 一、項目要求 1、創建role,通過role完成項目(可能需要多個role) 2、部署nginx調度器(node2主機) 3、部署2台lnmp伺服器(node3,node4主機) 4、部署mariadb資料庫(node5主機) 主要用的ansible實現自動化部署,ansible的安裝教程省略,控制 ...
  • 昨天看到一個MySQL資料庫設計原則:強烈建議表的主鍵使用整型自增主鍵。為啥呢? 要弄明白這個問題首先需要瞭解MySQL是如何維護數據的,你需要知道以下幾點: MySQL的InnoDB存儲引擎是在B+樹上維護表數據的 B+樹是一種平衡樹 在這棵樹上,每個節點在電腦中叫做數據頁,預設16k 樹的葉子 ...
  • 一、基本概念 ——後續的內容將會記錄作者在計科學習內容 DB(資料庫):存儲數據的倉庫,數據是有組織進行存儲 DBMS(資料庫管理系統):操縱和管理資料庫的大型軟體 SQL:操縱關係資料庫的編程語言,是一套標準 有Mysql,Oracle,SQLSever,PostgreSQl RDBMS(關係型數 ...
  • 簡述 Db2 是一款具有悠久歷史的關係型資料庫,由 IBM 公司開發和維護,廣泛應用於金融級業務場景。 CloudCanal 近期提供了 Db2 為源端的數據遷移同步 功能,用戶可以便利地將 Db2 中數據實時同步到其他資料庫,實現數據更廣泛、更實時的應用。 功能介紹 目標資料庫和能力 | 目標端數 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...