1. 部署cadvisor容器,用來收集host上的容器信息,該容器部署在需要收集容器信息的每一個主機上部署; docker run -v /:/rootfs:ro -v /var/run:/var/run:rw -v /sys:/sys:ro -v /var/lib/docker:/var/lib ...
1. 部署cadvisor容器,用來收集host上的容器信息,該容器部署在需要收集容器信息的每一個主機上部署;
docker run -v /:/rootfs:ro -v /var/run:/var/run:rw -v /sys:/sys:ro -v /var/lib/docker:/var/lib/docker:ro -v /dev/disk:/dev/disk:ro -p 8080:8080 --detach=true --name cadvisor google/cadvisor
2.部署grafana容器,用於將收集的主機容器數據顯示到瀏覽器
docker run -d -p 3000:3000 --name grafana --net=host grafana/grafana
3.部署prometheus server ,選定一臺伺服器
docker run -d -p 9090:9090 -v /root/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml -v /root/prometheus/alert.rules:/etc/prometheus/alert.rules -v /root/prometheus/conf.d:/etc/prometheus/conf.d --name prometheus --net=host prom/prometheus
更改static_configs:
4.部署node-exporter
docker run -d -p 9100:9100 -v /proc:/host/proc -v /sys:/host/sys -v /:/rootfs --name node-exporter --net=host prom/node-exporter --path.procfs /host/proc --path.sysfs /host/sys --collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc)($|/)"
5.部署告警(釘釘告警)
打開 prometheus.yml文件,配置規則
rule_files:
- "alert.rules"
創建alert.rules 文件
在文件中定義了兩個告警規則
- alert: InstanceDown 如果有實例down了,alert 的狀態會由 ok變為pending,達到5分,觸發告警
- alert: APIHighRequestLatency
本例prometheus為容器應用,重啟容器,也就是重新載入prometheus.yml文件和alert.rules文件
docker run -d -p 9090:9090 -v /root/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml -v /root/prometheus/alert.rules:/etc/prometheus/alert.rules --name prometheus --net=host prom/prometheus
6.部署alertmanager告警管理程式
docker run -d -p 9093:9093 --name alertmanager -v /root/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager
使用9093埠工作
更改prometheus.yml文件,加入
alerting:
alertmanagers:
- scheme: http
static_configs:
- targets:
- "ip:9093"
主要是發生了 alert ,將報警信息發到ip:9093這個伺服器的9093埠上
配置alertmanager.yml配置文件
receivers:
- name: webhook
webhook_configs:
- url: http://ip:8060/dingtalk/ops_dingding/send
send_resolved: true
其中url: http://localhost:8060/dingtalk/ops_dingding/send為安裝的prometheus-webhook-dingtalk.git 發生了 alert 發給http://localhost:8060
告警信息加入釘釘
在釘釘中加入機器人,通訊錄-我的群組-軟體研發-群機器人-自定義-添加-機器人名字/添加到群組,會生成一個url地址,將該地址url: https://oapi.dingtalk.com/robot/send?access_token=a7b646af2ff248da9a3fdf7e236438e641a11853fcb5c8c20f12037591c04e26複製
將釘釘接入 Prometheus AlertManager WebHook
7.安裝 alertmanager webhook
mkdir -p /usr/lib/golang/src/github.com/timonwong/
cd /usr/lib/golang/src/github.com/timonwong/
git clone https://github.com/timonwong/prometheus-webhook-dingtalk.git
cd prometheus-webhook-dingtalk
make(出錯不要管他)
會生成 prommetheus-webhook-dingtalk執行程式
執行nohup ./prometheus-webhook-dingtalk --ding.profile="ops_dingding= https://oapi.dingtalk.com/robot/send?access_token=fd0ff6f99a4253279262f924e04a40b8e88f5aa7fefa8360c7a568e355e1ddbb" 2>&1 >dingding.log &
--ding.profile 可以在命令行中指定多次
該處的 https地址為在釘釘裡加入機器人時產生的url地址
8.測試成功