100ms的SQL把伺服器搞崩潰了_ZenDei技術網路在線

100ms的SQL把伺服器搞崩潰了

-Advertisement-

前言一個項目上線了兩個月，除了一些反饋的優化和小Bug之外，項目一切順利；前期是屬於推廣階段，可能使用人員沒那麼多，當然對於項目部署肯定提前想到併發量了，所以早就把集群安排上，而且還在測試環境搞了一下壓測，絕對是沒得問題的；但是，就在兩個月後的一天，系統突然跑的比烏龜還慢，投訴開始就陸續反饋過來了 ...

前言

一個項目上線了兩個月，除了一些反饋的優化和小Bug之外，項目一切順利；前期是屬於推廣階段，可能使用人員沒那麼多，當然對於項目部署肯定提前想到併發量了，所以早就把集群安排上，而且還在測試環境搞了一下壓測，絕對是沒得問題的；但是，就在兩個月後的一天，系統突然跑的比烏龜還慢，投訴開始就陸續反饋過來了。

經過排查，原來是頻繁執行一條耗時100ms的SQL導致，100ms感覺不長，但就是把系統搞崩了，具體細節如下。

正文

1. 項目概況

項目採用ABP進行開發，集成統一的認證中心(IDS4)，部分數據對接第三方系統，拆分後的這個項目架構相對簡單。

考慮併發量不高，就算是高峰期也不會超過1000，於是就搞了個單台的資料庫伺服器(MySQL)，測試環境中經過壓測，完全能抗住。

上線時，由於線上資源的關係，DB伺服器的配置沒有按測試環境的標準來分配，相關人員想著後續看情況進行補配。上線推的比較緊，簡單評估了配置風險，初步判斷沒啥大問題，於是就推上線了。

相關技術棧：ABP、IdentityServer4、Autofac、AutoMapper、Quartz.NET、EF Core、Redis、MySQL等，這都不重要，重要的是100ms的SQL把系統搞崩了。

由於系統相對不大，並沒有把分散式日誌、調度監控，性能監控集成上去。

2. 問題排查

上線期間，前期處於使用推廣階段，一切正常。兩個月後的一天，系統處於使用高峰時段，突然陸續收到反饋：系統有點卡！！！於是趕緊進行排查。

由於系統已經是集群部署的，慢這個問題首先懷疑是資料庫伺服器，於是讓DBA的同事排查了一下，沒有鎖，只是有大量事務等待提交(waiting for handler commit)，通過如下命令可查的：

# 查看正在執行的腳本
select *  from information_schema.PROCESSLIST t where t.COMMAND != 'Sleep'  order by time desc;

看到都是插入審計日誌記錄導致，一看日誌記錄頻率，差不多一秒500條記錄。DBA同事說可能是記錄插入頻繁導致，此時CPU已經爆到100%了，為了快速解決問題，於是就趕緊關掉了一些不必要的日誌記錄。

這麼一改，稍微降了一點，沒有事務提交的記錄，系統勉強可以撐著用，但是CPU還是在85%~97%波動；

看到這種情況，當然還是不放心，繼續排查。中間有對伺服器的配置產生過懷疑，但非常肯定的是這不是主要原因，於是和DBA的同事繼續排查。

系統雖然可以正常使用，但時不時的也看看監控屏，CPU一直處於高水位狀態，還是有點慌的，因為一有問題，信息和電話都要爆。

突然DBA同事發現有一個單表查詢的SQL執行比較頻繁，於是單獨拿出來試了一下，查詢時間150ms左右，這個表的數據量不大，8萬左右，但沒有加任何索引，因為想著數據量不大，查詢時長還可接受，所以當時就沒有加相關索引。

定位到這條SQL後，想到的第一步就是增加索引，在測試環境上試了一把，執行效率直接飛速提高到1ms；效果如下：

所以和DBA同事達成一致意見，在生成環境上增加複合索引(創建索引一定要註意欄位順序)，在中午時候，系統使用頻率不太高，於是就在生成上快速加了索引，我去，CPU一下降到了20%以內，意不意外；就算在使用高峰期，也沒超過20%，通過zabbix工具監控看到CPU的效果：

問題算是解決了，總算鬆了一口氣。

這裡有個問題： CPU都爆了為什麼沒有報警提醒，這塊DBA同事正在排查相關配置。這裡發現CPU爆了，還是無意的遠程到伺服器，發現很卡，一看CPU才知道爆了。

系統雖小，問題不大，但其實暴露的問題還是挺多。

總結

這次線上小事故暫時分享到這，因為項目不大，所以沒有做那麼多監控，但以下建議，小伙伴可以參考一下：

頻繁執行的SQL語句，一定要保證其執行效率，不要小看ms級的優化，如果併發量上來也會是災難；
對應伺服器要做好監控，指定預警範圍提醒，避免打個措手不及；
儘量避免頻繁的自動刷新；引入實時通信的方式，會減少不必要的訪問壓力。
關於系統頻繁記錄的審計日誌，儘量不要和業務資料庫存放在一起；大量的日誌頻繁操作資料庫是很占用IO的。
對於拆分的項目，再加上集群部署，分散式日誌管理必須安排上，不然分析日誌排查問題是個費時費腦的事

關註“Code綜藝圈”，和我一起學習吧。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java 18 新增@snipppet標簽，註釋中寫樣例代碼更舒適了！

在這次的Java 18中，新增了一個@snipppet標簽，主要用於JavaDoc中需要放示例代碼的場景。其實在Java 18之前，已經有一個@code標簽，可以用於在JavaDoc中編寫小段的代碼內容，比如在之前介紹Simple Web Server視頻中，提到的這段樣例代碼，就是用@code標簽 ...
N皇後演算法

最近正在學習回溯法，遇到的第一個問題就是n皇後問題，問題如下：要求在一個n×n的棋盤上放置n個皇後，使得任意兩個皇後不在同一行或同一列或同一斜線上。直接上代碼： #include<iostream> #include<math.h> using namespace std; void NQuee ...
【Maven】如何構建maven項目；maven 核心知識

POM ：文件名稱是pom.xml , pom翻譯過來叫做項目對象模型，maven把一個項目當做一個模型使用 ...
Python繪製多因數柱狀圖到底有多簡單

背景介紹 R和Python作為兩個開源、且容易上手的數據分析和繪圖工具，在科研中應用的比較廣泛。在接下來的日子，我們圍繞Python進行繪圖和數據分析話題，寫一系列推文，事實上是我自己的一些學習筆記分享出來，為了我方便查閱，也方便大家翻閱。軟體介紹 [軟體名稱]：Anaconda | Spyd ...
Java中Arrays.asList方法具有什麼功能呢？

我們知道，頻繁操作資料庫會降低伺服器的系統性能，因此通常需要將頻繁訪問、更新的數據存入到緩存。Halo 項目也引入了緩存機制，且設置了多種實現方式，如自定義緩存、Redis、LevelDB 等，下麵我們分析一下緩存機制的實現過程。 ...
信號量---Java Semaphore類詳解說明

適用 2022.1 【更新時間 2022-4-29】引言由於IDEA在2021.2.2以後我們不能再使用重置大法白嫖了。為了打擊破解，Jetbrains煞費苦心，這次採用了JB賬號登陸，通過授權認證獲取免費試用資格（所以之前的無限重置的插件在今後的新版本中，將無法使用），以下整理了一個免JB註 ...
python數據可視化-matplotlib入門(6)-從文件中載入數據

前幾篇都是手動錄入或隨機函數產生的數據。實際有許多類型的文件，以及許多方法，用它們從文件中提取數據來圖形化。比如之前python基礎(12)介紹打開文件的方式，可直接讀取文件中的數據，擴大了我們的數據來源。下麵詳細介紹從文件中載入數據。一、使用內置的 csv 模塊載入CSV文件 CSV文件是一種 ...
基於SqlSugar的資料庫訪問處理的封裝，在.net6框架的Web API上開發應用

我前面幾篇隨筆介紹了關於幾篇關於SqlSugar的基礎封裝，已經可以直接應用在Winform項目開發上，並且基礎介面也通過了單元測試，同時測試通過了一些Winform功能頁面；本篇隨筆繼續深化應用開發，著手在在.net6框架的Web API上開發應用，也就是基於.net core的Web API應用... ...