過億雲資源運維管控難?華為雲CloudMap帶你喝著咖啡做運維

来源:https://www.cnblogs.com/huaweiyun/archive/2023/03/31/17275815.html
-Advertisement-
Play Games

摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。 本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCl ...


摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCloudAI 。

隨著雲計算產業的蓬勃發展,站點數字化進程方興未艾,如何管理雲站點中數目眾多的雲資源和日益複雜的關係數據,通過數字化技術提前識別和發現現網風險,保證現網不出重大事故成為當前SRE面臨的巨大挑戰。面對海量業務和運維數據,如何構建站點級數字孿生平臺,讓數據發揮自身價值為SRE所用,是邁入DataOps的我們亟需解決的問題。為此,華為雲站點數字化平臺CloudMap(以下簡稱“九洲平臺CloudMap”)攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

1、傳統雲資源運維面臨的挑戰

傳統的雲資源的運維存在諸多問題:對風險的管控仍然依賴人工而不是工具系統,風火水電基礎設施在遇到問題時因無法定位影響只能全局管控,使影響面無故擴大。由於缺乏雲資源的拓撲信息,部分資源依賴獲取不到會導致許多問題的擱置……提升雲資源的自動化運維能力,面臨諸多挑戰:

缺乏拓撲信息,依賴分析難

不同的雲資源(如租戶信息、雲服務信息、機櫃機房信息)來源於不同的系統中,從軟體層面的雲服務,到硬體層面的機房機櫃等,都可能出現各種各樣的問題,並且不同的雲服務之間存在著一些依賴關係,一個雲服務出問題可能影響其他雲服務。

自動化程度低,問題定位依賴人工

即使擁有這些依賴關係並存儲在配置管理資料庫中,傳統運維手段也只能定位問題節點,對於問題的爆炸半徑(如問題節點依賴的機櫃機房信息、或者受到其依賴的其他雲服務)往往要依賴手工定位。

運維訴求雜,查詢類型多

此外運維例行維護、故障定位需要進行類型繁多的查詢,既需要有實時性要求的單點深度鏈路查詢支撐運維,也需要全局類鏈路統計等偏離線任務的查詢支撐下游任務。

2、九洲平臺CloudMap的解決方案

圖 1 九洲平臺CloudMap數據概覽

九洲平臺CloudMap攜手華為雲圖引擎GES完成了億級空間數據構建,通過租戶資源拓撲構建、網路流量路徑分析、服務動態依賴發現打造全鏈路可視能力,構築基於站點視角的數字化平臺,實現分鐘級問題定界。

圖 2 雲上資源拓撲關係示意圖

2.1 租戶資源拓撲構建

租戶資源拓撲是將實體抽象成與其大小、形狀無關的“點”,而把連接實體的線路抽象成“線”。CloudMap通過整合各類系統中的數據信息,將華為雲的租戶與其相關租賃的物理機、虛擬機進行關係的構建並存儲到華為雲圖引擎GES中,構建租戶資源拓撲,使得依賴分析成為可能。在租戶出現問題時第一時間能夠通過“線”溯源回對應的租賃機器,並快速定位和解決其中的問題。

2.2 網路流量路徑分析

華為雲作為國內TOP雲服務廠商,每日網路流量數據是比較龐大的,對於網路流量路徑的管理和可視就如百度地圖之於道路交通一樣重要。而在運維場景下,掌握了網路流量路徑可以進一步的補充由基礎設施、基礎服務到高階服務之間的鏈路關係。CloudMap通過將請求流量進行監控,繪製出一個整體、清晰的物理和虛擬網路路徑,可以準確截斷問題的蔓延,提高自動化運維水平。

2.3 服務動態依賴發現

服務依賴發現是發現分散式軟體系統中各組件依賴關係的過程,隨著華為雲的規模擴張,服務往往會被拆分為多個子服務。分散式軟體系統通過不同子服務之間的組合,提供了穩定多樣化的服務。與此同時,由於這些錯綜複雜的依賴關係,也伴隨著很多連鎖反應。其中最經典的案例就是由於單個服務的故障導致其在分散式軟體系統中快速傳播,導致大量的服務失效。在華為雲的日常運維中,掌握各個服務的動態依賴是讓雲穩定可靠不可或缺的一項技術,它關係到了能否快速的找到保障服務的各個關聯服務,避免其他服務引火燒身。CloudMap通過對服務間依賴的動態探測,構造全鏈路微服務依賴關係;同時藉助GES的多跳查詢能力,及時定位單服務問題的影響範圍,避免大量服務失效,解決爆炸半徑求解難的問題。

圖 3 服務資源視圖查詢示例

3、華為雲圖引擎GES助力CloudMap高效檢索圖數據

從數據入庫到計算查詢,華為雲圖引擎GES為九洲平臺CloudMap的存儲、查詢和分析提供了一站式解決方案。

3.1 圖數據建模

  1. 在複雜、龐大數據量的背景下很難使用傳統的結構化資料庫進行數據建模,圖引擎幫助快速構建點到點、點到邊之間的數據建模;
  2. 從基礎設施到雲服務,使用圖引擎構建全棧元數據,創建了過億的點邊關係,同時這些點、邊支持增加屬性機制,讓每個點、邊都能存儲對應的屬性;
  3. 數億級屬性數據實現小時級數據導入能力,保證了數據的時效性。

圖 4 簡化後的元數據截選

3.2 多樣介面能力

華為雲圖引擎GES提供了豐富的API介面查詢能力,CloudMap通過調用GES API,實現介面化的查詢邏輯。目前CloudMap有數十個查詢請求通過GES的Cypher、PipelineQuery、PathQuery等介面完成,這些請求響應和返回格式統一,便於處理,簡化了CloudMap的處理邏輯,降低了運維訴求雜,查詢類型多帶來的業務開發成本。查詢請求的高效響應,讓長鏈路的空間關係數據得以快速查詢並消費。

3.3 計算分析

  • 秒級響應能力:在圖引擎的強大算力支持下,九洲平臺CloudMap實現了多點、多跳查詢的能力,在複雜的空間關係中快速、準確的找到需要的數據及關係。其中利用業界領先的技術,圖引擎將大量6-8跳查詢的響應控制在秒級,使得CloudMap進行實時故障影響面分析、設備依賴關係查詢成為可能;
  • 離線計算能力:在對於需要龐大計算量、大量數據的分析型任務中,圖引擎提供了非同步任務能力,通過提前執行離線查詢/演算法任務並緩存結果,保證了結果獲取的效率,支撐了CloudMap向下游應用提供數據;
  • 強大索引機制:圖引擎支持像關係型資料庫一樣的索引構建能力,可以基於label、屬性等進行索引創建,實現全圖屬性過濾任務的快速響應;
  • 穩定可靠的查詢能力:由於數據量大、查詢鏈路長的原因,在查詢過程中往往會使用大量記憶體,圖引擎通過記憶體管理技術控制總記憶體使用量,讓查詢穩定可靠。

圖 5 CloudMap數據示例

4、九洲平臺CloudMap的應用

作為站點數字化平臺,九洲平臺CloudMap在圖引擎GES上搭建運維圖譜圖模型,建立站點空間數據關係。通過疊加空間數據和運維作業數據,從而打破數據孤島、消除數據斷裂點,形成運維知識圖譜,釋放數據價值,助力故障快速定位定界:

  • 空間數據:通過提供華為雲站點三類空間數據(租戶資源拓撲、網路流量路徑與服務架構依賴),提供從租戶資源實例、物理網路到基礎設施風火水電等全局視野,支撐快速識別服務影響與租戶影響範圍;
  • 知識圖譜:基於以上空間數據,結合告警、變更、監控與事件等核心運維數據,通過整合整理,再提取出故障線索,形成發現即定界能力,提升黑盒和自愈恢復觸達效率。
  • 專家經驗:在各個運維場景下不斷固化專家經驗併進行實踐和沉澱,使得專家經驗真正使能運維數據。

截止目前,CloudMap空間關係數據已覆蓋30+雲服務,在分散式緩存服務DCS、雲資料庫服務RDS、文檔資料庫服務DDS和大數據服務MRS等高階服務故障快恢場景應用落地。除此之外,CloudMap還為站點風控、變更風控、故障快恢等多個運維場景提供了數據底座和計算能力,極大提升了現網運維效率,為華為雲穩定可靠,為SRE確定性運維而持續努力。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:MQTT 1、MQTT協議說明 ( Message Queuing Telemetry Transport)消息隊列傳輸探測,一種基於==發佈/訂閱模式==的輕量級消息傳輸協議 2、MQTT協議來源 在1999年的時候,Andy Stanford-Clark和 Arlen Nipper需要一種通 ...
  • 安裝與配置 1. 安裝Squid代理伺服器軟體: sudo yum install squid 2. 配置Squid代理伺服器: #http_access allow localnet 將其改為: http_access allow all 然後找到以下行: #http_port 3128 將其改為 ...
  • #ubuntu16.04升級python3.7.1教程 準備 sudo apt-get install --reinstall zlibc zlib1g zlib1g-dev sudo apt-get install libffi-dev libssl-dev libreadline-dev -y ...
  • Linux 文件許可權 文件許可權和文件類型共有10個字元組成,這10個字元可以分成三部分 $$ d+rwx+rwx+rw-\d:表示文件類型\2-4位(第一組rwx):表示文件所有者的對文件的許可權\5-7位(第二組rwx):表示文件所有者所在組的用戶對文件的許可權\8-10位(rw-):表示其他用戶對文 ...
  • 一、項目要求 1、創建role,通過role完成項目(可能需要多個role) 2、部署nginx調度器(node2主機) 3、部署2台lnmp伺服器(node3,node4主機) 4、部署mariadb資料庫(node5主機) 主要用的ansible實現自動化部署,ansible的安裝教程省略,控制 ...
  • 昨天看到一個MySQL資料庫設計原則:強烈建議表的主鍵使用整型自增主鍵。為啥呢? 要弄明白這個問題首先需要瞭解MySQL是如何維護數據的,你需要知道以下幾點: MySQL的InnoDB存儲引擎是在B+樹上維護表數據的 B+樹是一種平衡樹 在這棵樹上,每個節點在電腦中叫做數據頁,預設16k 樹的葉子 ...
  • 一、基本概念 ——後續的內容將會記錄作者在計科學習內容 DB(資料庫):存儲數據的倉庫,數據是有組織進行存儲 DBMS(資料庫管理系統):操縱和管理資料庫的大型軟體 SQL:操縱關係資料庫的編程語言,是一套標準 有Mysql,Oracle,SQLSever,PostgreSQl RDBMS(關係型數 ...
  • 簡述 Db2 是一款具有悠久歷史的關係型資料庫,由 IBM 公司開發和維護,廣泛應用於金融級業務場景。 CloudCanal 近期提供了 Db2 為源端的數據遷移同步 功能,用戶可以便利地將 Db2 中數據實時同步到其他資料庫,實現數據更廣泛、更實時的應用。 功能介紹 目標資料庫和能力 | 目標端數 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...