記一次文件句柄泄漏導致的崩潰

-Advertisement-

最近項目上遇到好幾個崩潰問題，解決過程有點曲折，在此記做個記錄。項目背景介紹：該項目為語音識別實時分析系統，整套系統架構如下：接連幾次崩潰的是中間的語音流接入系統，崩潰的情況如下： 1、打開文件過多報錯，導致系統直接卡死。 2、打開線程過多，導致系統直接崩潰。 3、Jetty容器非同步支持bug。 ...

最近項目上遇到好幾個崩潰問題，解決過程有點曲折，在此記做個記錄。

項目背景介紹：該項目為語音識別實時分析系統，整套系統架構如下：

接連幾次崩潰的是中間的語音流接入系統，崩潰的情況如下：

　　1、打開文件過多報錯，導致系統直接卡死。

　　2、打開線程過多，導致系統直接崩潰。

　　3、Jetty容器非同步支持bug。

第一次崩潰：打開文件過多

　　首先在日誌中大量的刷屏，因為我們的語音流接入系統只是一個中間轉發的服務，這個服務當時是從實時語音分析服務中剝離出來的，當時剝離出來的主要目的是降低實時語音分析服務的帶寬壓力，所以當出現這個問題後，直接指向的是有網路連接沒有釋放。

　　既然確定了排查方向，使用lsof命令，好家伙，該進程直接占了六萬多個文件句柄，其中eventpoll占了一萬六千多個，打開的pipe有三萬三千多個，就這兩項就占了近五萬個句柄。項目上部署的這套系統最高併發為預計的3000路通話，即使在最高通話併發的情況下，也不可能占用這麼多句柄數，所以情況就是有連接沒有釋放，導致句柄泄漏，並逐漸累積到這個數目，驗證這個情況，使用netstat，果然發現大量的連接一直沒有釋放。

　　好了，鎖定了目標，接下來就是排查代碼中沒有正確釋放的地方。

　　如最上，一通新通話進來時，我們的語音流接入系統會接入兩個語音流併發送給語音識別服務進行識別，在這個過程中，語音流發送是一個持續的過程，並且我們要確保同一個語音流由同一臺機器進行識別。所以在新語音流進來時，我們的接入系統與識別服務之間會創建一個session，當通話結束時銷毀這個session，這個session在我們的語音流接入系統（以下簡稱接入系統）中是和語音流ID即streamId一一對應的，在一個流推送結束後我們要根據streamId進行session的關閉。結果在代碼中有一個地方，本來應該是傳streamId的，但是結果卻傳成了toString（這個錯誤很低級！），好了，找到這個地方修改後，項目重新上線。（可是幸福不會來的這樣突然！）

第二次崩潰：打開線程過多

　　當上面以為問題解決後，第二天線上直接報出進程崩潰的問題，查看崩潰日誌，裡面大量的線程阻塞，一個進程居然有三萬個線程。

　　遇到這個情況也只能結合代碼去分析這些線程是在哪裡起的了。因為這個接入系統只是一個中間商，所以起線程的地方只有三個，一個是接入語音流的地方，一個是接收識別結果的地方，剩下的就是推送識別結果。查看語音抓包系統併發數正常，而識別結果推送是同步的，但是我們在接收識別結果的時候採用的是非同步介面，而每收到一個識別結果的時候都會當作一個任務加入線程池等待執行。那麼這時，積壓只能是在接收識別結果這裡了。（說明：在前面通過打時間戳的方式已經確認過了接入系統和分析服務之間發送和接收速度不一致，因為分析服務拿到識別結果後還會有後續的模型、流程分析處理，所以這就是一個典型的快生產者慢消費者問題。）

　　針對上面的分析結果，確認是消費者過慢問題，那麼快生產者就應該進行控制，查看代碼，發現在處理接收的識別結果的時候，我們使用的線程池是newCachedThreadPool，所以因為這個原因，當分析服務這邊接收過慢時，接入系統在接收識別服務的識別結果時就只能創建大量的線程去等待執行。針對這個情況，所以改為使用newFixedThreadPool。（還有就是如果消費者過慢的話，提高消費者處理能力才是正解，所以後面也有對分析服務的優化，提高響應時間。）

　　所以在使用生產者消費者模型的時候，可以有快生產者慢消費者存在，但是兩者之間的處理速度不應該相差過大，更不能說是沒有消費者（當分析服務崩潰或者阻塞就是這種情況。）

第三次崩潰：Jetty容器非同步支持bug

　　再經過上面兩次bug修複後，以為問題徹底解決了，但是還是同樣的到項目上跑上一天後，又出現了崩潰問題。對於這一次從日誌裡面分析，還是文件句柄占用耗盡而崩潰，分析這些鏈接，發現還是我們的接入系統和識別服務之間有大量的連接沒有釋放。這讓人很疑惑，經過最終的確認，所有的連接之間都有得到正確的釋放。然後註意到了之前一直被忽略的一條錯誤日誌：

　　最終確認jetty容器在拋出該異常後，會導致非同步回調永遠得不到調用，這樣的話就會使得我們的接入系統和識別服務之間的連接可能因為非同步回調沒有得到調用而導致連接得不到釋放。（當時使用的jetty版本是9.4.12）

　　線上的每一次崩潰都讓我的小心臟跳動加速一倍，活著不易，且行且珍惜！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

從零寫一個編譯器（七）：語義分析之符號表的數據結構

項目的完整代碼在 "C2j Compiler" 前言有關符號表的文件都在symboltable包里前面我們通過完成一個LALR(1)有限狀態自動機和一個reduce信息來構建了一個語法解析表，正式完成了C語言的語法解析。接下來就是進入語義分析部分，和在第二篇提到的一樣，語義分析的主要任務就是生成 ...
.Net Core in Docker - 使用阿裡雲Codepipeline及阿裡雲容器鏡像服務實現持續交付/部署（CD）

上一次演示瞭如何 "使用阿裡雲Codepipeline,阿裡雲容器鏡像服務實現CI" ，講到這裡我們push一下代碼後就自動編譯、自動跑單元測試、自動構建鏡像、自動推送鏡像到私倉。那麼離我們最初設定的目標只差那麼一小步了，那就是自動部署到測試/生產環境，這一步就是持續交付/部署(CD)。 CD其實是 ...
.NET World——gPRC概覽

什麼是gRPC "官方" 的定義： gRPC is a modern open source high performance RPC framework that can run in any environment. It can efficiently connect services in ...
ASP.NET Core Web 應用程式系列（一）- 使用ASP.NET Core內置的IoC容器DI進行批量依賴註入（MVC當中應用）

本系列將和大家分享下ASP.NET Core Web 應用程式的一些基礎知識，本章主要簡單介紹下在ASP.NET Core MVC當中如何使用ASP.NET Core內置的IoC容器DI進行批量依賴註入。 ...
使用 .NET CORE 創建項目模板，模板項目，Template

場景：日常工作中，你可能會碰到需要新建一個全新的解決方案的情況（如公司新起了一個新項目，需要有全新配套的後臺程式），如果公司內部基礎框架較多、解決方案需要DDD模式等，那麼從新起項目到各種依賴引用到能實際可用，一大堆的配置都需要重新設定、測試，耗時耗力，根據項目的大小，往往可能需要 1 2 小時甚至 ...
Window服務基於Quartz.Net組件實現定時任務調度（二）

前言：在上一章中，我們通過利用控制台實現定時任務調度，已經大致瞭解瞭如何基於Quartz.Net組件實現任務，至少包括三部分：job(作業），trigger（觸發器），scheduler（調度器）。其中job是需要在一個定時任務中具體執行的業務邏輯，trigger通過規定job何時並按照何種指定的 ...
談談surging 微服務引擎 2.0的鏈路跟蹤和其它新增功能

一、前言 surging是基於.NET CORE 服務引擎。初始版本誕生於2017年6月份，經過NCC社區二年的孵化，2.0版本將在2019年08月28日進行發佈，經歷二年的發展，已經全部攘括了微服務架構的技術棧，覆蓋了從服務註冊、服務發現、中間件、協議主機再到鏈路跟蹤，並且制定了一套微服務的規則， ...
CAD2015 C#二次開發字體變形

開發環境：VS2012問題描述：一個簡單的WinForm視窗，一個群組控制項和一個Label，都是微軟雅黑12pxCAD2015下，看起來卻不一樣，一個明顯細得多。 CAD2014下，無此問題。實驗了CAD2007到CAD2018，有些版本有此問題，有些版本無次問題。原因：未知。解決方法：改成宋體1 ...