統一告警平臺

来源:http://www.cnblogs.com/lxmhhy/archive/2016/12/21/6208019.html
-Advertisement-
Play Games

一、概要 由於監控業務發展的較快,各種告警很多,並且告警記錄不能查詢,則需要一個平臺來解決告警展示、查詢等問題,「統一告警平臺」應運而生。以下簡稱AMC(Alert Messages Center)。 AMC提供介面調用和前臺配置,支持Rtx、簡訊、微信、郵件四種告警通道,支持模塊信息自動補全、告警 ...


一、概要

  由於監控業務發展的較快,各種告警很多,並且告警記錄不能查詢,則需要一個平臺來解決告警展示、查詢等問題,「統一告警平臺」應運而生。以下簡稱AMC(Alert Messages Center)。

  AMC提供介面調用和前臺配置,支持Rtx、簡訊、微信、郵件四種告警通道,支持模塊信息自動補全、告警收斂、歷史記錄查詢/展示等功能,告警接收人和告警機器可關聯CMDB獲取相關信息,也可獨立配置,同時支持臨時屏蔽功能。

二、接入說明

1、登記項目

若某項目需要發送告警,則可以考慮接入AMC。

該項目的開發同學,先在AMC前端頁面登記項目信息,然後在自己項目代碼里調用告警介面,發送告警即可。

登記項目信息需提供:

  • 項目名稱,必須欄位:包含 a)全局唯一的英文欄位,b)拉風的中文名稱
  • 項目申請人,只是登記一下,不做其他用途
  • 選擇一個三級業務信息,必須欄位
  • 告警開關,基於本項目的告警開關,可在故障時控制本項目的告警消息是否發送出來
  • 告警接收人,支持發送業務樹負責人/機器負責人/自定義/介面指定
  • 告警收斂周期,預設為 60 秒,在一個周期內,重覆告警則以第一條為準,其他會被過濾,可在介面設置不收斂/過濾。
  • 告警收斂規則
  • 告警方式:rtx,sms,wechat,e-mail,至少選一種

登記後會獲得一個全局唯一的項目key,appKey,作為告警介面的一個必需參數

2、告警類型

一個項目中一般會有多種不算類型的告警(不同的異常情況),本模塊採用「首次告警登記」的方式,即不用特意先登記有哪幾種異常。

在某個項目的開發過程中,當遇到一種的異常情況,為這種異常指定一個(本項目內)唯一的字元串,稱為「告警類型」,因此有全局唯一的欄位:appKey + 告警類型。

但,一個項目邏輯很簡單(比如一個腳本),不需區分異常類型,或是項目剛剛啟動,暫時只有一種異常,則發送告警時不需指定「告警類型」,本模塊使用 default 作為預設值。

以下簡稱「告警類型」,一種告警類型中預設包含有「項目」key,即全局唯一的「告警類型」。

比如「基礎監控」中的 cpu、記憶體,都是該系統下的一種告警類型。

3、機器維度

每條告警消息,也應有一個的機器信息,基於機器信息,我們可以做:

  • 該機器在 CMDB 中是否打開了告警。這是一個總開關,優先順序最高
  • 使用該機器在 CMDB 的業務信息,可以確定該機器是線上機器、或是非線上機器,不同的機器角色,有不同的收斂規則

三、告警介面設計

1、redis 隊列

包含兩種隊列:

  • 待處理隊列,暫定8個隊列, in_list_{01} ... in_list_{08},由「告警介面」按 「告警類型 」做一致性 hash 寫入,再由後端進程進行處理
  • 已處理隊列,暫定一個隊列,his_msg_list,後端進程處理後寫入該隊列,再由 logstash 每分鐘取出,寫入 elasticsearch

2、任務數據

「告警介面」寫入的數據,為「任務數據」。

任務數據需要序列化:使用 msgpack api 把任務信息序列化成二進位,再把二進位寫入redis。

序列化的各欄位順序(php、偽代碼):

msgpack_pack( array(
    'appKey' => $app_key,    // 字元串
    'content' => $content,    // 字元串
    'alarmType' => $alarm_type,  // 字元串
    'isFadeOut' => $is_fadeout,  // 數值 1、0
    'timestamp' => $timestamp,  // 時間戳
    'alarmIp'   => $uip,  //無符號整形ip,告警的機器 ip
    'remoteIp' => $remoteIp,  // 無符號整形ip,調用介面的對端 ip
    'otherUser' => $other_users,  // 用戶id列表,多個id使用英文分號分隔
) );

3、消息數據

後端程式處理一個任務,生產一個「消息數據」

格式為 json,為了讓 logstash 直接寫入 elasticsearch

一條數據包含如下欄位,各欄位含義請見以下 mysql create table 語句中的註釋:

app_id,數值,項目 id
app_key,字元串,項目key
app_name, 字元串,項目標識(英文名)
alarm_id,數值,告警類型 id
alarm_type,字元串,告警類型
ip(點分表示法),字元串,ip
content,字元串,告警內容
occur_time,字元串,YYYY-MM-DD hh:mm:ss,故障時間戳
result_code,數值,處理結果狀態碼
result,字元串,處理結果說明
send_time,字元串,YYYY-MM-DD hh:mm:ss, 消息發送的時間戳
send_by,字元串,消息發送的渠道
send_to,字元串,消息發送給了誰

 四、告警後臺設計

1、生產者

根據 redis 隊列配置線程數量,每個線程操作一個 redis 隊列加上「告警類型」的一致性 hash 可保證記憶體中的二級以下數據不用加鎖,極大優化程式處理速度。

定時從 CMDB 獲取最新 ip/業務樹/機房等信息,定時從 AMC 資料庫中 load 配置信息,降低資料庫壓力並且通過隊列傳遞減少阻塞。

根據記憶體數據來解析判斷是否需要告警,需要則推送給「消費者」

定時恢復告警記錄的「異常/正常」狀態

2、消費者

多線程操作,實時從「生產者」獲取告警消息推送給用戶,並寫進資料庫和 redis,提供 logstash 調用

五、臨時屏蔽設計

1、增加臨時屏蔽

  • 根據不同需求提供一定時間的屏蔽告警功能,屏蔽時間開始即生效關閉告警,屏蔽時間結束則繼續開啟告警。每次屏蔽均會生成一條屏蔽記錄,每條屏蔽記錄均記錄下操作人和屏蔽原因,方便審計
  • NOTE: 臨時屏蔽功能上線期間會同時將永久關閉告警功能,對某條記錄的屏蔽最長是10天,因為amc的告警一般是rtx/mail持續7天,其他的持續1天,則屏蔽10天足夠。對CMDB的告警開關是否去掉需要調查一番。 
  • WARNING: 屏蔽開始時間必須大於等於當前時間的下一分鐘,結束時間至少在開始時間1分鐘後,不能大於開始時間10天
  • IMPORTANT: 由於AMC對開關的獲取是每分鐘才獲取一次,並不是實時獲取開關,則屏蔽開始/結束時間是會提前1分鐘將開關關閉/開啟,這樣能儘量保證開關在AMC中是接近準確值的

2、屏蔽類型

  • amc有三級指標,項目->類型->ip,則提供
    • 按項目屏蔽
    • 按項目下的類型屏蔽
    • 按項目下的類型下的ip屏蔽
  • amc是結合機器進行告警的,則提供
    • 按機器IP屏蔽,則屏蔽該ip,不會對應ip1-ip5
    • 按業務樹屏蔽該業務下所有的機器(可區分線上機/測試機,使用中/非使用中),包括ip1~ip5
    • 按機房屏蔽該機房下所有的機器(可區分線上機/測試機,使用中/非使用中),包括ip1~ip5

3、取消屏蔽「恢復告警」

由於關閉永久開關,則需要提供介面取消屏蔽,重新開啟開關。

  • 提供根據屏蔽記錄來取消的介面
  • 提供更細維度的取消介面
    • 由於取消永久開關並且實時更新業務樹/機房下的ip,所以遇到這四種屏蔽則只能根據原記錄mask id取消
    • 如果是批量ip/appId/alarmId/statusId的取消則可以修改mask表中的生效的value,剔除需要取消的值即可

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • --返回ASCII碼select ASCII('A') "A的ASCII碼" ,ASCII('a') "a的ASSCII碼" from dual ; --反向select CHR(65) from dual;--連接兩個字元串,如果一個為空則返回有值的select concat('Oracle',' ...
  • 1.概要 InnoDB引擎對FULLTEXT索引的支持是MySQL5.6新引入的特性,之前只有MyISAM引擎支持FULLTEXT索引。對於FULLTEXT索引的內容可以使用MATCH()…AGAINST語法進行查詢。 為了在InnoDB驅動的表中使用FULLTEXT索引MySQL5.6引入了一些新 ...
  • 一、鎖的種類 MySQL中鎖的種類很多,有常見的表鎖和行鎖,也有新加入的Metadata Lock等等,表鎖是對一整張表加鎖,雖然可分為讀鎖和寫鎖,但畢竟是鎖住整張表,會導致併發能力下降,一般是做ddl處理時使用。 行鎖則是鎖住數據行,這種加鎖方法比較複雜,但是由於只鎖住有限的數據,對於其它數據不加 ...
  • uboot環境配置 通過配置uboot讓它在啟動過程中從tftp獲取內核和設備樹,並從在載入內核之後把通過啟動參數將"從nfs掛載根文件系統"傳入內核。這個配置主要是通過uboot內建的" +`save`"設置環境變數的方式進行配置,下麵是我採用的uboot的環境變數,下麵是我用的環境變數設置: 就 ...
  • HP伺服器 hp 360g5 centos7安裝問題 一 :啟動盤無法識別硬碟 1、進入安裝光碟,用上下鍵選擇安裝centos——Install Centos7(註意不可按Enter鍵),如圖: 2、按Tab鍵,對安裝進行額外配置,在屏幕最下方會顯示如下字樣: 3、在額外配置的命令行上添加配置: h ...
  • 首先,看看什麼是超線程概念 超線程技術就是利用特殊的硬體指令,把兩個邏輯內核模擬成兩個物理晶元,讓單個處理器都能使用線程級並行計算,進而相容多線程操作系統和軟體,減少了CPU的閑置時間,提高的CPU的運行效率。超線程技術是在一顆CPU同時執行多個程式而共同分享一顆CPU內的資源,理論上要像兩顆CPU ...
  • 中國科學技術大學:   http://mirrors.ustc.edu.cn/ (IPv4+IPv6)   http://mirrors4.ustc.edu.cn/   http://mirrors6.ustc.edu.cn/   西南大學:http://linux.swu.edu.cn/s... ...
  • 說來慚愧,玩Linux這麼久了,居然沒有玩轉vmstat這個命令,對很多指標的具體意義都有點模糊不清,花了點時間好好學習、整理一下這個命令的相關資料。因為這個命令確實比較重要,而且頻繁用到。 命令簡介: vmstat是Virtual Meomory Statistics(虛擬記憶體統計)的縮寫,可對操... ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...