前一段時間自家養的幾隻貓經常出問題,由於沒有有效的監控預警手段,以至於問題出現或者許久一段時間才會被通知到。凌晨一點這個鍋可誰都不想背,為此基於目前的情況搭建了以下這麼一套監控預警系統。 ...
前言
前一段時間自家養的幾隻貓經常出問題,由於沒有有效的監控預警手段,以至於問題出現或者許久一段時間才會被通知到。凌晨一點這個鍋可誰都不想背,為此基於目前的情況搭建了以下這麼一套監控預警系統。
相關軟體
- Nginx:代理訪問 Grafana
- Grafana: 可視化面板(Dashboard),有著非常漂亮的圖表和佈局展示
- Influxdb:開源的時間序列資料庫,適用於記錄度量,事件及執行分析
- Telegraf:收集系統和服務的統計數據
- Docker:開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中
監控架構
GTI監控預警系統,架構流程說明:
- 第一步:數據採集,Telegraf 採集 Tomcat 相關參數數據
- 第二步:數據存儲,Influxdb 存儲 Telegraf 採集的數據
- 第三步:數據可視化,Grafana 配置 Tomcat 監控面板
- 第四步:預警通知,配置釘釘、郵件等預警
安裝配置
這裡只對Grafana、Telegraf、Influxdb、Tomcat 做相應的安裝說明,Nginx 以及 Docker 請自行查閱資料。
Grafana
Grafana只是一個接入數據源的可視化面板,這裡為了方便,我們選擇Docker安裝。
mkdir grafana
ID=$(id -u)
docker run -d --user $ID --name=grafana --volume "$PWD/grafana:/var/lib/grafana" -p 3000:3000 grafana/grafana
# 如果生產環境配置,最好提前配置好功能變數名稱
docker run -d --user $ID --name=grafana --volume "$PWD/data:/var/lib/grafana" -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://monitor.52itstyle.com" grafana/grafana
執行成功以後,執行以下命令:
docker ps
如果出現grafana運行容器說明安裝成功。
查看容器相關參數:
docker inspect docker.io/grafana/grafana
進入:
docker exec -it grafana /bin/sh
Grafana的預設配置文件grafana.ini位於容器中的/etc/grafana,這個文件是映射不出來的。不過可以先創建並運行一個容器,拷貝出來重新創建運行容器。
參數說明(這裡截取了部分重點參數):
##################### Grafana 幾個重要的參數(參考一下) #####################
[paths]
# 存放臨時文件、session以及sqlite3資料庫的目錄
;data = /var/lib/grafana
# 存放日誌的地方
;logs = /var/log/grafana
# 存放相關插件的地方
;plugins = /var/lib/grafana/plugins
#################################### Server ####################################
[server]
# 預設協議 支持(http, https, socket)
;protocol = http
# 預設埠
;http_port = 3000
# 這裡配置訪問地址,如果使用了反向代理請配置功能變數名稱,發送告警通知的時候作為訪問地址
root_url = http://grafana.52itstyle.com
#################################### Database ####################################
[database]
# 預設使用的資料庫sqlite3,位於/var/lib/grafana目錄下麵
;path = grafana.db
#################################### Session ####################################
[session]
# session 存儲方式,預設是file即可 Either "memory", "file", "redis", "mysql", "postgres", default is "file"
;provider = file
#################################### SMTP / Emailing ##########################
[smtp]
# 郵件伺服器配置,自行修改配置
enabled = true
host = smtp.mxhichina.com:465
user = admin@52itstyle.com
# If the password contains # or ; you have to wrap it with trippel quotes. Ex """#password;"""
password = 123456
;cert_file =
;key_file =
;skip_verify = false
from_address = admin@52itstyle.com
# 這裡不要設置中文,否則會發送失敗
from_name = Grafana
Influxdb
創建並運行容器
docker run -d -p 8083:8083 -p 8086:8086 -e ADMIN_USER="root" -e INFLUXDB_INIT_PWD="root" -e PRE_CREATE_DB="telegraf" --name influxdb tutum/influxdb:latest
各個參數含義:
-d:容器在後臺運行
--name:容器名稱
-e:指定環境變數,容器中可以使用該環境變數
-p:將容器內埠映射到宿主機埠,格式為 宿主機埠:容器內埠;8083是influxdb的web管理工具埠,8086是influxdb的HTTP API埠
執行成功以後,執行以下命令:
docker ps
如果出現influxdb運行容器說明安裝成功。
訪問地址:http://ip:8083/
Telegraf
docker pull telegraf
把telegraf相關配置拷貝到宿機
docker cp telegraf:/etc/telegraf/telegraf.conf ./telegraf
採集Tomcat數據:
如果想監控多個Tomcat,這裡配置多個[[inputs.tomcat]]即可,但是一定要配置不同的tags標識。
[[inputs.tomcat]]
url = "http://192.168.1.190:8080/manager/status/all?XML=true"
# Tomcat訪問賬號密碼 必須配置
username = "tomcat"
password = "tomcat"
timeout = "5s"
# 標識Tomcat名稱、根據實際項目部署情況而定
[inputs.tomcat.tags]
host = "blog"
[[inputs.tomcat]]
url = "http://192.168.1.190:8081/manager/status/all?XML=true"
# Tomcat訪問賬號密碼 必須配置
username = "tomcat"
password = "tomcat"
timeout = "5s"
# 標識Tomcat名稱、根據實際項目部署情況而定
[inputs.tomcat.tags]
host = "bbs"
採集數據到influxdb:
[[outputs.influxdb]]
# urls = ["udp://localhost:8089"] # UDP endpoint example
urls = ["http://localhost:8086"] # required,這個url改成自己host
## The target database for metrics (telegraf will create it if not exists).
database = "telegraf" # 這個會在influx庫創建一個庫
把配置文件複製到容器:
docker cp telegraf.conf telegraf:/etc/telegraf/telegraf.conf
重啟telegraf服務:
docker restart docker
Tomcat
由於telegraf收集Tomcat相關數據需要配置訪問許可權,這裡我們選擇Tomcat7做配置說明。
修改位於conf下的tomcat-users.xml文件:
<tomcat-users>
<user username="tomcat" password="tomcat" roles="manager-gui,manager-script,manager-jmx,manager-status"/>
</tomcat-users>
重啟Tomcat容器,訪問以下地址:
http://ip:8080/manager/status/all?XML=true
如果出現以上界面,說明配置成功。
監控配置
依次啟動Tomcat、Influxdb、Telegraf、Grafana完成後,我們進入Grafana後臺管理進行相關配置。
配置Influxdb數據源:
選擇 datasources/Add datasource
輸入正確的HTTP地址以及資料庫賬號密碼,點擊保存,如果出現綠色提示框,說明配置成功。
配置Tomcat儀錶盤:
選擇 dashboard/import
這裡有三種方式導入面板:
- 選擇輸入官方面板ID或者URL
- 直接複製黏貼JSON格式代碼
- 導入第三方面板JSON格式文件
這裡我們導入事先自己定製保存的Tomcat監控面板,最後點擊導入保存。
如果不出意外,將會是下圖的樣子。
告警配置
前期做了這麼多,我們的最終目的是為了提前預警通知,在系統即將發生災難之前作出相應的準備調整。這裡我們以Tomcat的線程數量閾值作為預警通知。
點擊線程面板-選擇編輯:
配置相關參數:
1、Alert名稱,可以自定義。
2、執行的頻率,這裡我選擇每60s檢測一次。
3、判斷標準,預設是avg,這裡是下拉框,自己按需求選擇。
4、query(A,5m,now),字母A代表選擇的metrics中設置的sql,也可以選擇其它在metrics中設置的,但這裡是單選。5m代表從現在起往之前的五分鐘,即5m之前的那個點為時間的起始點,now為時間的結束點,此外這裡可以自己手動輸入時間。
5、設置的預警臨界點,這裡手動輸入,和6是同樣功能,6可以手動移動,兩種操作是等同的。
配置預警信息以及通知方式:
這裡我們選擇的是郵件預警通知,但是要提前進行配置,詳見一開始grafana.ini中 SMTP / Emailing 相關參數配置。
點擊發送測試,提示成功會發送一份告警Demo到指定郵箱:
總結
講道理,這一套東西還是挺強大的。特別是對於中小公司來說,各種成熟的開源組間一整合完美搭建出一套監控系統,時間成本、人力成本、技術成本可以降到最低。
參考文檔
大家安裝過程中,版本可能不盡相同,相關頁面展示會不一致,但是不會影響最終功能呈現。
https://docs.influxdata.com/influxdb/
https://docs.influxdata.com/telegraf/
https://blog.52itstyle.com/archives/2014/
https://blog.52itstyle.com/archives/2029/
https://github.com/influxdata/telegraf/pull/3277