紙上得來終覺淺,絕知此事多宕機...記錄一下自己很蠢的一次故障處理過程。 上周的時候,一個剛上線的系統又開始反映登不上了,因為最近這個系統也老是出現這個問題,開發也一直在找問題中,所以也沒太在意。於是登上操作系統,mysql -uroot -p登錄資料庫,然後就一直沒反應,登不上... 交代一下,m ...
紙上得來終覺淺,絕知此事多宕機...記錄一下自己很蠢的一次故障處理過程。
上周的時候,一個剛上線的系統又開始反映登不上了,因為最近這個系統也老是出現這個問題,開發也一直在找問題中,所以也沒太在意。於是登上操作系統,mysql -uroot -p登錄資料庫,然後就一直沒反應,登不上...
交代一下,mysql是裝在mysql用戶下的,裝的時候雖然對資料庫參數有進行調優,但是操作系統層面沒做調整,所以mysql用戶的最大文件打開數限製為預設的1024,用ulimit -n可以查詢。然後我在用mysql的root賬號登錄資料庫的時候也是在mysql這個系統用戶下登錄的,然後看了下當時伺服器的負載,cpu和記憶體這些都很正常,但是存在大量應用到資料庫的連接。
到這兒問題應該就很清楚了,系統用戶mysql文件打開數可能達到了最大限制,當然不能打開更多的連接。
然而當時我並沒有想到這一點,我想到的不是換個系統用戶登錄,不是停掉應用,而是重啟資料庫。。。而且這個資料庫跑的不只這一個業務,雖然也都不是什麼重要的業務。。。
於是我就準備重啟資料庫,仍然是在mysql用戶下執行mysqladmin -uroot -p shutdown。毫無疑問,這肯定也是沒有反應的,道理跟前面root賬號連不上資料庫是一樣的,ctrl+C後有以下報錯
^Cmysqladmin: connect to server at 'localhost' failed error: 'Lost connection to MySQL server at 'waiting for initial communication packet', system error: 4'
然後我就做了個更蠢的操作,雖然想著可能會丟數據,殺掉了mysql進程。。。然後重啟mysql,系統也就可用了。是真的很蠢,做完之後馬上就想起有多種更好的處理方法,卻選擇了最蠢的一種。
今天再登上資料庫看的時候,發現有幾個參數跟我配置文件里寫的不一樣,比如max_connections、table_open_cache等,都是設置的預設值,看了下上次啟動日誌,確實也有告警
2019-03-15T08:14:03.038750Z 0 [Warning] Changed limits: max_open_files: 1024 (requested 12010) 2019-03-15T08:14:03.038911Z 0 [Warning] Changed limits: max_connections: 214 (requested 2000) 2019-03-15T08:14:03.038916Z 0 [Warning] Changed limits: table_open_cache: 400 (requested 5000)
很明顯,mysql根據參數設置計算了實例需要打開的最大文件數超過了當前系統用戶的最大限制,於是沒有使用該參數而使用了預設值。當然啟動起來資料庫也是可用的,啟起來後也可以手動把設置參數
set global max_connections=2000; set global table_open_cache=5000;
只不過就很有可能出現我之前出現的問題了,也就是資料庫連接數並沒有達到max_connections的限制,用戶仍然連接不上。需要說明的是,正常情況下就算連接數滿了,mysql仍然會為root用戶保留一個連接,也就是root用戶是可以登錄資料庫查看問題的。
要解決也很簡單,增大操作系統用戶mysql的限制值就行了,在配置文件/etc/security/limits.conf後面加上新的限制值就行了。
mysql soft nofile 32768 mysql hard nofile 65535