服務不可用排查思路_ZenDei技術網路在線

服務不可用排查思路

-Advertisement-

前言上周四，伺服器突然掛了。SSH都連接不上，日常的小程式後臺直接down掉，小程式每日大概3K左右訪問量。於是乎就開啟了，排查之後。排查階段什麼先別說，先把服務恢復再說。重啟阿裡雲伺服器，SSH連接。開啟nginx，redis，mysql，java服務。一系列操作，先把服務先啟動了。伺服器 ...

前言

上周四，伺服器突然掛了。SSH都連接不上，日常的小程式後臺直接down掉，小程式每日大概3K左右訪問量。於是乎就開啟了，排查之後。

排查階段

什麼先別說，先把服務恢復再說。重啟阿裡雲伺服器，SSH連接。開啟nginx，redis，mysql，java服務。一系列操作，先把服務先啟動了。

伺服器安裝了CloudMonitor(雲監控)，非常建議安裝，對排查問題，查看CPU，記憶體非常的有幫助。

查看CPU，記憶體如下：

我們先從最後一幅圖看起，可以明顯的看到9.30左右的時候，網路的流入流出速率立馬飆升了。因此初步可以斷定，CPU，記憶體飆升，可能跟網路有關。

9.30分左右的時候，伺服器大概運行了以下幾個跟網路有關的應用：

mysql
redis
ngxin
java服務（osc，sign等等）
docker

很明顯前三個是日常的應用，基本上不會有什麼問題，首先排除。剩下的就是Java相關的服務和Docker了。

第一個想法是不是Java的訪問量突然增大，然後伺服器資源不夠，然後把服務給打死了。然後去看了Java服務的相關日誌，發覺9.30分並無異常，跟平常的訪問流量無多大變化。故排除。

那麼就是docker服務了。

docker我每天會有一個定時任務，用來刷題的。基本上每天九點多就會start，然後11點stop掉。遂查看docker日誌：

可以明顯的看到9.23分的時候。docker開啟，開始刷題。可以斷定就是docker的鍋了。此時把docker kill掉，定時任務關掉，至此沒在出現過問題了。

問題在現

為確定是否是docker的問題，於是過了幾天，我又開啟了docker的定時任務。查看伺服器資源如下：

問題重新復現出來了，很明顯，這就是docker的鍋。至於為什麼開啟docker的這個服務，記憶體就飆升，CPU飆升，導致伺服器直接down掉。這個原因就要問這個image的作者了。

個人初步猜想，記憶體泄露了。

我們可以仔細觀察下記憶體的圖片。約9.30的時候docker服務啟動，記憶體上升至70%左右，這都是非常的合理的。

在大概10點左右的時候，任務跑完了(通過查看日誌）。但服務並沒有stop。

從10點開始，記憶體一路飆升，飆升至95%，最終我kill掉了docker，記憶體回歸正常。

這是很明顯的記憶體泄露，因為此鏡像為私人鏡像，並且不開源，具體代碼無從查起，也是沒有辦法的了。

不過已向改倉庫提了issue。https://github.com/fuck-xuexiqiangguo/docker/issues/20

總結

從這次伺服器掛掉，有以下幾點感想。

日誌很重要，無論是什麼服務，一定要記得把日誌排在首位
伺服器一定要有監控，並且要有監控預警，超過多少，發簡訊，電話通知。
問題思路排查要有理有據，一步一步來，不能瞎子抓鬮似的。
服務掛掉，首先要恢復服務，比如重啟等操作

這次伺服器宕機並沒有任何影響，畢竟沒啥用戶，不過感覺對問題的排查更加深刻了。業務推動技術，這點是毋庸置疑的了。

而且業務上線後，慢慢也會出現很多問題，一個一個解決，也能學習到很多東西。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

.net core 3.0web_razor page項目_使用中間件接受大文件上傳報錯_httpRequest.Form threw an exception of type Microsoft.AspNetCore.Server.Kestrel.Core.BadHttpRequestException_Request body too large

前言：在web項目的.net framework時文件上傳時，自己常用一般處理程式接受上傳文件，上傳文件的大小限制是可以項目的webconfig里配置。到core項目使用一般處理程式變成了中間件，但是使用中間件接受的時候，就遇到了上傳大文件時，拋出的異常： httpRequest.Form thr ...
[UWP]UIElement.Clip雖然殘廢，但它還可以這樣玩

1. 複習一下WPF的UIElement.Clip 用了很久很久的WPF，但幾乎沒有主動用過它的Clip屬性，我只記得它很靈活，可以裁剪出多種形狀。在 "官方文檔" 複習了一下，大致用法和效果如下： WPF的Clip是一個 "Geometry" 屬性，它有多種派生類：有這麼多種Geometry，W ...
ubuntu下安裝tomcat，shutdown時報錯：./catalina.sh:1:eval:/home/xxx/jdk/jre/bin/java:not found

該問題可能導致tomcat啟動成功了，但是瀏覽器輸入http://127.0.0.1:8080無法顯示tomcat的歡迎界面打開Tomcat安裝目錄下的bin文件下的setclasspath.sh，在文檔開頭添加如下語句： export JAVA_HOME=你的jdk路徑 export JRE_H ...
Linux 命令之 scp 命令詳解

Linux 命令之 scp 命令詳解一、scp 簡介 scp 命令用於不同主機之間複製文件和目錄。 scp 是 secure copy 的縮寫,是基於 ssh 協議進行安全的遠程文件拷貝命令。 scp 想要免密進行複製，需要發送秘鑰給相應的節點。 scp 是加密的，rcp 是不加密的，scp 是 ...
在 Kubernetes 集群快速部署 KubeSphere 容器平臺

KubeSphere 不僅支持部署在 Linux 之上，還支持在已有 Kubernetes 集群之上部署 KubeSphere，自動納管 Kubernetes 集群的已有資源與容器。前提條件版本： Helm = 2.10.0`（不支持 helm 2.16.0 " 6894" ），且已安裝了 Ti ...
CentOS7下部署java+tomcat+mysql項目及遇到的坑

CentOS 7 下安裝部署java+tomcat+mysql 前置：CentOS7安裝：https://jingyan.baidu.com/article/b7001fe1d1d8380e7382dd72.html 附常用命令合集：https://www.cnblogs.com/icebutter ...
Ubuntu 一鍵偽裝成Win 10，Kali Linux 2019 kali-undercover軟體嫁接；Ubuntu 1804 使用 kali-undercover;

今天，下午刷手機的時候，突然看到kali出了一個非常新穎的主題；該主題可以使得kali系統偽裝成windows 10而變得低調起來；就像下麵這樣：具體新聞鏈接：https://www.freebuf.com/news/221582.html Kali Undercover模式如果你在某些環境中想 ...
ubuntu 1806 添加 kali 源

最近需要使用 kali 源安裝一些軟體：配置 sources.list，根據如下鏈接：http://mirrors.ustc.edu.cn/help/kali.html 獲取公鑰；apt-key adv --keyserver keyserver.ubuntu.com --recv ED444F ...