記一次文件句柄泄漏導致的崩潰

来源:https://www.cnblogs.com/wendiyou/archive/2019/08/18/11372666.html
-Advertisement-
Play Games

最近項目上遇到好幾個崩潰問題,解決過程有點曲折,在此記做個記錄。 項目背景介紹:該項目為語音識別實時分析系統,整套系統架構如下: 接連幾次崩潰的是中間的語音流接入系統,崩潰的情況如下: 1、打開文件過多報錯,導致系統直接卡死。 2、打開線程過多,導致系統直接崩潰。 3、Jetty容器非同步支持bug。 ...


最近項目上遇到好幾個崩潰問題,解決過程有點曲折,在此記做個記錄。

項目背景介紹:該項目為語音識別實時分析系統,整套系統架構如下:

   

接連幾次崩潰的是中間的語音流接入系統,崩潰的情況如下:

  1、打開文件過多報錯,導致系統直接卡死。

  2、打開線程過多,導致系統直接崩潰。

  3、Jetty容器非同步支持bug。

 

第一次崩潰:打開文件過多

  首先在日誌中大量的刷屏,因為我們的語音流接入系統只是一個中間轉發的服務,這個服務當時是從實時語音分析服務中剝離出來的,當時剝離出來的主要目的是降低實時語音分析服務的帶寬壓力,所以當出現這個問題後,直接指向的是有網路連接沒有釋放。

  既然確定了排查方向,使用lsof命令,好家伙,該進程直接占了六萬多個文件句柄,其中eventpoll占了一萬六千多個,打開的pipe有三萬三千多個,就這兩項就占了近五萬個句柄。項目上部署的這套系統最高併發為預計的3000路通話,即使在最高通話併發的情況下,也不可能占用這麼多句柄數,所以情況就是有連接沒有釋放,導致句柄泄漏,並逐漸累積到這個數目,驗證這個情況,使用netstat,果然發現大量的連接一直沒有釋放。

   

  好了,鎖定了目標,接下來就是排查代碼中沒有正確釋放的地方。

  如最上,一通新通話進來時,我們的語音流接入系統會接入兩個語音流併發送給語音識別服務進行識別,在這個過程中,語音流發送是一個持續的過程,並且我們要確保同一個語音流由同一臺機器進行識別。所以在新語音流進來時,我們的接入系統與識別服務之間會創建一個session,當通話結束時銷毀這個session,這個session在我們的語音流接入系統(以下簡稱接入系統)中是和語音流ID即streamId一一對應的,在一個流推送結束後我們要根據streamId進行session的關閉。結果在代碼中有一個地方,本來應該是傳streamId的,但是結果卻傳成了toString(這個錯誤很低級!),好了,找到這個地方修改後,項目重新上線。(可是幸福不會來的這樣突然!)

 

第二次崩潰:打開線程過多

  當上面以為問題解決後,第二天線上直接報出進程崩潰的問題,查看崩潰日誌,裡面大量的線程阻塞,一個進程居然有三萬個線程。

   

  遇到這個情況也只能結合代碼去分析這些線程是在哪裡起的了。因為這個接入系統只是一個中間商,所以起線程的地方只有三個,一個是接入語音流的地方,一個是接收識別結果的地方,剩下的就是推送識別結果。查看語音抓包系統併發數正常,而識別結果推送是同步的,但是我們在接收識別結果的時候採用的是非同步介面,而每收到一個識別結果的時候都會當作一個任務加入線程池等待執行。那麼這時,積壓只能是在接收識別結果這裡了。(說明:在前面通過打時間戳的方式已經確認過了接入系統和分析服務之間發送和接收速度不一致,因為分析服務拿到識別結果後還會有後續的模型、流程分析處理,所以這就是一個典型的快生產者慢消費者問題。)

  針對上面的分析結果,確認是消費者過慢問題,那麼快生產者就應該進行控制,查看代碼,發現在處理接收的識別結果的時候,我們使用的線程池是newCachedThreadPool,所以因為這個原因,當分析服務這邊接收過慢時,接入系統在接收識別服務的識別結果時就只能創建大量的線程去等待執行。針對這個情況,所以改為使用newFixedThreadPool。(還有就是如果消費者過慢的話,提高消費者處理能力才是正解,所以後面也有對分析服務的優化,提高響應時間。)

  所以在使用生產者消費者模型的時候,可以有快生產者慢消費者存在,但是兩者之間的處理速度不應該相差過大,更不能說是沒有消費者(當分析服務崩潰或者阻塞就是這種情況。)

 

第三次崩潰:Jetty容器非同步支持bug

  再經過上面兩次bug修複後,以為問題徹底解決了,但是還是同樣的到項目上跑上一天後,又出現了崩潰問題。對於這一次從日誌裡面分析,還是文件句柄占用耗盡而崩潰,分析這些鏈接,發現還是我們的接入系統和識別服務之間有大量的連接沒有釋放。這讓人很疑惑,經過最終的確認,所有的連接之間都有得到正確的釋放。然後註意到了之前一直被忽略的一條錯誤日誌:

   

  最終確認jetty容器在拋出該異常後,會導致非同步回調永遠得不到調用,這樣的話就會使得我們的接入系統和識別服務之間的連接可能因為非同步回調沒有得到調用而導致連接得不到釋放。(當時使用的jetty版本是9.4.12)

 

  線上的每一次崩潰都讓我的小心臟跳動加速一倍,活著不易,且行且珍惜!

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 項目的完整代碼在 "C2j Compiler" 前言 有關符號表的文件都在symboltable包里 前面我們通過完成一個LALR(1)有限狀態自動機和一個reduce信息來構建了一個語法解析表,正式完成了C語言的語法解析。接下來就是進入語義分析部分,和在第二篇提到的一樣,語義分析的主要任務就是生成 ...
  • 上一次演示瞭如何 "使用阿裡雲Codepipeline,阿裡雲容器鏡像服務實現CI" ,講到這裡我們push一下代碼後就自動編譯、自動跑單元測試、自動構建鏡像、自動推送鏡像到私倉。那麼離我們最初設定的目標只差那麼一小步了,那就是自動部署到測試/生產環境,這一步就是持續交付/部署(CD)。 CD其實是 ...
  • 什麼是gRPC "官方" 的定義: gRPC is a modern open source high performance RPC framework that can run in any environment. It can efficiently connect services in ...
  • 本系列將和大家分享下ASP.NET Core Web 應用程式的一些基礎知識,本章主要簡單介紹下在ASP.NET Core MVC當中如何使用ASP.NET Core內置的IoC容器DI進行批量依賴註入。 ...
  • 場景:日常工作中,你可能會碰到需要新建一個全新的解決方案的情況(如公司新起了一個新項目,需要有全新配套的後臺程式),如果公司內部基礎框架較多、解決方案需要DDD模式等,那麼從新起項目到各種依賴引用到能實際可用,一大堆的配置都需要重新設定、測試,耗時耗力,根據項目的大小,往往可能需要 1 2 小時甚至 ...
  • 前言: 在上一章中,我們通過利用控制台實現定時任務調度,已經大致瞭解瞭如何基於Quartz.Net組件實現任務,至少包括三部分:job(作業),trigger(觸發器),scheduler(調度器)。其中job是需要在一個定時任務中具體執行的業務邏輯,trigger通過規定job何時並按照何種指定的 ...
  • 一、前言 surging是基於.NET CORE 服務引擎。初始版本誕生於2017年6月份,經過NCC社區二年的孵化,2.0版本將在2019年08月28日進行發佈,經歷二年的發展,已經全部攘括了微服務架構的技術棧,覆蓋了從服務註冊、服務發現、中間件、協議主機再到鏈路跟蹤,並且制定了一套微服務的規則, ...
  • 開發環境:VS2012問題描述:一個簡單的WinForm視窗,一個群組控制項和一個Label,都是微軟雅黑12pxCAD2015下,看起來卻不一樣,一個明顯細得多。 CAD2014下,無此問題。實驗了CAD2007到CAD2018,有些版本有此問題,有些版本無次問題。原因:未知。 解決方法:改成宋體1 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...