在“求佛保佑伺服器不宕機”、“殺程式員祭天”的環境下,程式員每天可謂是戰戰兢兢,接到電話和簡訊都嚇得瑟瑟發抖,為了我們的安全,及時發現伺服器運行問題已不僅僅是運維的問題了。本文總結了常見的伺服器監控指標,希望各位開發人員都搞一個腳本運行著以保障自己的生命安全。 ...
前言
在“求佛保佑伺服器不宕機”、“殺程式員祭天”的環境下,程式員每天可謂是戰戰兢兢,接到電話和簡訊都嚇得瑟瑟發抖,為了我們的安全,及時發現伺服器運行問題已不僅僅是運維的問題了。今天總結一下常見的伺服器監控指標,希望各位開發人員都搞一個腳本運行著以保障自己的生命安全。
文章經常被人爬,而且還不註明原地址,我在這裡的更新和糾錯沒法同步,這裡註明一下原文地址:http://www.cnblogs.com/zhenbianshu/p/7683496.html
獲取伺服器信息
多台機器同時需要監控時,每台機器都需要運行一個監控程式,我們首先要獲取伺服器的信息以分辨機器,發生問題時,也可以評估問題的嚴重性。
獲取IP
獲取內網IP:
通過ifconfig命令獲取全部的網路信息,併排除掉本地host和ipv6信息。
/sbin/ifconfig | grep inet | grep -v '127.0.0.1' | grep -v inet6 | awk '{print $2}' | tr -d "addr:"
註意這裡要使用ifconfig
的絕對路徑,因為如果監控腳本運行在 crontab 的話,執行時是不會帶有環境信息的。
獲取外網IP:
外網的IP我們可以通過請求別的網站來回顯,有一些網站提供此服務,如 ipecho.net/plain
或者我自己懶得搭建的網站:alwayscoding.net
。
命令如下 curl alwayscoding.net
獲取系統信息
獲取系統信息建議使用 lsb_release -a
方法:
lsb_release -a
LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch
Distributor ID: CentOS
Description: CentOS release 6.5 (Final)
Release: 6.5
Codename: Final
信息比較豐富,可以截取字元串中需要的部分;
CPU
CPU 負載是我們要監控的首要指標,我們常說的系統負載指的就是它,它是指一段時間內CPU處理進程數占 CPU 能處理最大進程數的比例
,即一個 CPU 的最大負載是 1.0
,這種情況 CPU 正好能將所有進程執行完,超出這個限制,系統會進入 over load 超載狀態,就會有進程需要等待其他進程執行結束。我們一般認為CPU負載在 0.6
以下是健康狀態。
在終端上查看系統負載通常使用 top
命令,但它是交互型的,且數據較多較雜,不利於寫監控腳本,我們一般使用 uptime
通過其 average load
欄位獲取最近 1分鐘、5分鐘、15分鐘的平均負載。
uptime
16:03:30 up 130 days, 23:33, 1 user, load average: 4.62, 4.97, 5.08
此時系統平均負載約為 5,不是系統已經超載,也沒有顯示錯誤,這是因為在考慮負載時還要考慮 CPU 的核心數,多核 CPU 同時能處理的進程數與其核數成正比,其最大負載不是 1,而是其 CPU 核心數 N。
我們使用 nproc
可以查看系統 CPU 核心數,我正在使用的這台機器核心數是 16,所以其最大負載是16,平均負載是 5/16 = 0.32 , CPU 處於健康狀態。
記憶體
記憶體是我們要監控的另外一項核心指標,記憶體占用率太高,無疑會導致進程無法正常分配記憶體執行。
我們也可以通過 top 命令查看記憶體占用,但監控中更常用 free
命令:
free -m
total used free shared buffers cached
Mem: 32108 18262 13846 0 487 11544
-/+ buffers/cache: 6230 25878
Swap: 0 0 0
我們首先來看 Mem 這一行,共 32108M 記憶體,已使用 18262M,剩餘 13846,那麼記憶體的使用率就是 18262/32108*100% = 56.88%。那麼,後面的shared、buffers、cached 又是什麼意思呢?
其實在 linux 中,記憶體的分配也是懶惰原則,在記憶體分配給一個進程,進程執行完畢後 linux 是不會立即清理記憶體的,而是把這一部分記憶體當作緩存存儲起來,如果此進程再啟動就不必再重新載入了;如果可用記憶體使用完了,則將這一部分緩存清空,重新利用。這樣來看 used 里的 buffers 和 cached 部分是隨時可被重用
的,不能算作被占用。而 shared 是進程共用記憶體部分,會作為被占用部分,但一般較少使用,與此相關的內容,可以看文末的參考文章。
真實數據是第三行的去除 buffers 和 cache 的部分,即真正的記憶體使用率是 6230/(6230+25878)*100% = 19.4%
。
而第四行的 swap 是用來臨時存儲記憶體 buffers 和 cache 的,正常情況雖然能加快進程的重啟,但物理記憶體較少的情況下,會引起 swap 的頻繁讀寫,增加伺服器的 IO 壓力,用與不用視情況而定。
網路
網路在 linux 作為 web 伺服器時也是一項很重要的指標,相關命令有很多,但各有所長,我們一般監控以下狀態:
使用netstat查看監聽埠。
netstat -an | grep LISTEN | grep tcp | grep 80
查看是否有進程正在監控80埠。
使用ping監控網路連接
使用 ping
命令可以查看網路是否連接,使用 -c 選項來控制請求次數,使用 -w 選項來控制超時時間(單位:毫秒),最後利用 &&
符號的 短路
特性來控制結果輸出:
ping -w 100 -c 1 weibo.com &>/dev/null && echo "connected"
硬碟
硬碟不是特別重要的監控指標,但在硬碟滿的時候寫文件失敗也會影響進程的正常執行。
我們使用 df
命令來查看磁碟的使用狀態,-h 會以易讀格式輸出:
df -h
Filesystem Size Used Avail Use% Mounted on
/dev/vda1 40G 6.0G 32G 16% /
tmpfs 16G 0 16G 0% /dev/shm
/dev/vdb1 296G 16G 265G 6% /data0
我們可以使用 grep 命令找到想要查詢的掛載節點,再使用 awk 命令獲取結果欄位。
另外使用 du [-h] /path/to/dir [--max-depth=n]
可以查看某目錄的大小,註意使用 --max-depth=n
控制遍歷深度。
運行/其他
其他的監控狀態主要包括進程錯誤日誌監控,請求數監控,進程存在狀態監控等,這些可以用到一些基本命令了,如 ps
等。
更詳細的信息就需要使用進程日誌了,使用 grep 、awk
等命令來分析日誌來獲取更詳細的信息。
總結
最後是監控結果的統計了,可以使用一般的“推”和“拉”方式,建議各機器把結果推到一臺機器上進行統計和報警。也可以使用 rsync
方式從各伺服器拉取,報警方式像企業微信、簡訊、郵件等就按要需配置了。
最後,系統監控是個重要且需要持續關註的事情,祝大家的伺服器永不宕機。
關於本文有什麼問題可以在下麵留言交流,如果您覺得本文對您有幫助,可以點擊下麵的 推薦
支持一下我,博客一直在更新,歡迎 關註
。
參考: