監控非常有用,不僅能及時預警發現故障,事後還能提供詳實的數據用於追查定位問題。監控也非常重要,從產品的角度來看,沒有監控意味著產品是不可靠不安全的。從技術的角度來看,沒有監控意味著分析bug就如同盲人摸象,不知下次故障何時發生,出現故障後毫無頭緒,無法解決。說到監控大家首先想到的是運維監控,不過監控 ...
監控非常有用,不僅能及時預警發現故障,事後還能提供詳實的數據用於追查定位問題。
監控也非常重要,從產品的角度來看,沒有監控意味著產品是不可靠不安全的。從技術的角度來看,沒有監控意味著分析bug就如同盲人摸象,不知下次故障何時發生,出現故障後毫無頭緒,無法解決。
說到監控大家首先想到的是運維監控,不過監控不僅僅是運維的工作。後端可以有後端的監控(如監控php的致命錯誤),前端也可以有前端的監控(如監控app閃退)。甚至產品運營都要各自的監控,它是一種實用方法。
運維監控:
目標:
1.實時監控系統
2.能實時反饋系統狀態
3.保障服務安全穩定
4.保證產品穩定運行
方法:
1.瞭解監控對象
2.分析監控對象有哪些指標,例如CPU的指標有使用率、負載、用戶態、內核態、上下文切換
3.給每個指標設置閾值,可以設多個閾值,例如提醒閾值,警告閾值,故障閾值。
4.超過提醒/警告/故障閥值時需要設計處理流程,例如在管理端醒目顯示,給相關責任人發送消息等等
作用:
1.發現問題
2.定位問題
3.可以第一時間解決問題
4.總結過往問題為系統優化提供方向。
工具:
Zabbix(神器),有它就夠了!是一個分散式監控系統,支持多種採集方式和採集客戶端,有專用的Agent代理,也支持SNMP、IPMI、JMX、Telnet、SSH等多種協議,它將採集到的數據存放到資料庫,然後對其進行分析整理,達到條件觸發告警。其靈活的擴展性和豐富的功能是其他監控系統所不能比的。相對來說,它的總體功能做的非常優秀。
從以上各種監控系統的對比來看,Zabbix都是具有優勢的,其豐富的功能、可擴展的能力、二次開發的能力和簡單易用的特點,讀者只要稍加學習,即可構建自己的監控系統。
流程:
1.採集各種指標(種類繁多)的數據值。
2.將採回得數據存儲到DB
3.分析數據
4.展示數據和結論
5.超過閾值報警
6.可以設置處理流程,例如自動重啟等等。
細類:
硬體監控,系統監控 ,應用監控 ,網路監控 ,流量分析 ,日誌監控 ,安全監控 ,API監控 ,性能監控 ,業務監控等等。
這裡的每個分類都可以講很多,就不展開了,需要瞭解的自行百度。當然Zabbix工具基本可以覆蓋這些監控。
軟體開發中的監控思想:
軟體能夠上線並不意味著軟體運行過程中不會出現bug,伺服器硬體不會出現故障,進程不會假死等等很多問題。最好的效果是即使出現故障也要是負責人第一時間知道而不是用戶先投訴。
軟體開發的過程中可以考慮的監控手段有一下這些:
-
心跳檢測(比較適合客戶端模式的軟體):軟體定時發送心跳包,而監控程式不停的檢測是否有心跳,如果檢測到說明軟體已經掛掉了或者假死中。
-
通過異常/錯誤處理過程將錯誤信息發給責任人,每種編程語言都有異常/錯誤處理,我們可以自定義異常/錯誤處理類/方法,將錯誤/異常信息第一時間發送給開發者。
一個例子:監控線上php的致命異常
具體的實現思路是這樣的:
1.php產生致命錯誤會通過日誌類記錄這個致命的bug。
2.在日誌類中埋入一個鉤子程式(切麵編程思想)
3.通過鉤子程式將錯誤信息發佈到kafka(非同步處理,防止阻塞)
4.另一個程式訂閱kafka中的錯誤信息,分析後,將錯誤信息通過釘釘發送給開發者。
5.開發者第一時間獲取到錯誤信息,立馬定位修改bug。
6.bug及時修複上線,避免重大損失。
歡迎大家討論和指正!!!