基於Dubbo的壓測調優實例

来源:http://www.cnblogs.com/trgl/archive/2017/08/01/7270815.html
-Advertisement-
Play Games

不久前參與開發了一個基於dubbo分散式框架的底層賬單系統,並實現了其中的一部分業務介面,目前需對這些介面進行壓測,以評估生產環境所能承受的最大吞吐量。筆者以其中一個查詢介面為例來回顧此次壓測的整體流程。 壓測準備: 1.調用查詢介面的測試jar包,作為dubbo-consumer,依賴了查詢服務的 ...


  不久前參與開發了一個基於dubbo分散式框架的底層賬單系統,並實現了其中的一部分業務介面,目前需對這些介面進行壓測,以評估生產環境所能承受的最大吞吐量。筆者以其中一個查詢介面為例來回顧此次壓測的整體流程。

壓測準備:

1.調用查詢介面的測試jar包,作為dubbo-consumer,依賴了查詢服務的api,測試module基於maven開發,執行maven clean package即可通過編譯得到jar包

2.JMeter:Apache組織開發的基於Java的壓力測試工具

方案:

無限次請求查詢介面(保證任意時刻併發量相同),觀察Error%為0,當請求平穩進行時的tps,為該介面吞吐量

 

實施:

1.JMeter中添加一個測試計劃,線程組容量分別設為10、20、50、80、100、200、400、1000、2000,通過jmeter csv data set config設置三組查詢參數

2.準備完畢後,依次在不同容量線程組下啟動測試計劃,結果如下


吞吐量折線統計圖
99%Line折線統計圖
Error%折現統計圖

       結論:當線程數為200時,tps達到1700+,隨著線程數增加,99%Line明顯躥升至6s,猜想部分線程請求不到資源,並且Error線程占比瞬間增多也印證了這一點。ps:如果同一組參數測試,壓測效果卻在遞減,可嘗試重啟Jmeter。


思考&決策:

       當前測試結構中包含三個節點:本地測試Consumer節點—>查詢介面Provider節點—>資料庫節點,所以相鄰兩個節點間均可能產生併發瓶頸,所以需要定位具體問題發生的具體位置。由於壓測僅需一個節點,所以筆者使用了jVisualVM+jmx+jstacd組合,遠程監聽Dubbo服務所在的那台機器。


調優準備:

1.jstatd:(JDK自帶)基於RMI的服務程式,用於監控基於HotSpot的JVM中資源的創建及銷毀。首次使用需在被監控機器中加入許可權授予文件jstatd.all.policy(jdk的bin目錄下)

文件內容:

grant codebase"file:${java.home}/../lib/tools.jar"{

permission java.security.AllPermission;

};

完畢後執行./jstatd -J-Djava.security.policy=jstatd.all.policy -J-Djava.rmi.server.hostname=遠程伺服器ip &

對外預設開啟1099埠

2.jVisualVM:(JDK自帶)Java性能分析工具

3.jmx:(JDK自帶),是一個為應用程式、設備、系統等植入管理功能的框架,如管理基於tomcat的web服務,本文中管理基於SpringBoot的Dubbo服務,需在啟動腳本中加入jmx的啟動配置

-Dcom.sun.management.jmxremote

-Djava.rmi.server.hostname=遠程伺服器ip

-Dcom.sun.management.jmxremote.port=18999(自定義)

-Dcom.sun.management.jmxremote.ssl=false

-Dcom.sun.management.jmxremote.authenticate=false


方案&實施:

開啟壓測,並觀察jVisualVM中占用CPU時間非常多的熱點方法,並查詢遠程主機cpu使用率情況


jVisualVM觀察面板

       發現在正常線程數請求時,獲取DriudDataSource連接池連接的方法CPU時間非常高,經查詢發現,系統中連接池的配置:initialSize、minIdle、maxActive都非常低,遂進行了第一次調優:提升資料庫連接數,連接池初始化連接數50,最小空閑連接數50,最高活躍連接數400。

       提升後,獲取連接方法的CPU時間明顯降低,遂測試線程數為400時的請求環境下的支持情況,發現已經開始出現error,即一部分線程請求不到資源,99%Line也達到6s之大!

分析:

       此時系統的資料庫連接池配置已經達到400,瓶頸不在此處,那麼會不會是遠程的資料庫節點存在瓶頸,於是遠程登錄資料庫節點,發現mysql的允許連接數非常大,不存在瓶頸。既然請求線程數非常大,資料庫連接池連接數非常大,資料庫提供的連接數也足夠,CPU、JVM均沒有異常,那麼造成性能瓶頸的可能在與dubbo允許提供的連接線程數不足以匹配壓測產生的線程數。

       定位到dubbo配置,發現並沒有顯式定義dubbo連接數,查閱dubbo開發文檔


dubbo預設連接線程數

       問題發現了:dubbo預設連接線程數為100,  而併發量400的請求線程對dubbo造成的壓力過大,導致壓測不久就出現部分線程請求不到資源超時的問題,遂進行了第二次調優:提升Dubbo線程池連接數,將連接數提升至1000。

        那麼是不是到此併發就不存在瓶頸了呢?1000請求線程+dubbo允許線程數1000+資料庫大連接數支持,理論上操作是沒有問題的,我們來實際跑一下,發現壓測時出現了更嚴重的問題,剛開始請求就出現了OOM及超過一半的error線程,準備去遠程機器列印一下執行日誌,就連tail及ps命令都沒有可用資源供執行,停掉了請求線程,又費了九牛二虎之力停掉了服務進程,開始分析原因:各系統間通信均無瓶頸,問題會出在哪裡,是什麼原因撐爆了JVM,已知的條件是遠程服務至少有1000個線程在伺服器內生存,是不是線程量太大撐爆了機器?由於JVM中,棧空間線程私有,查閱JVM參數


JVM線程棧空間

伺服器為linux系統,那預設ThreadStackSize=1024K,那麼1000個線程JVM就需要創建1000*1024k即1個G的空間!這個節點部署三個服務,光一個服務的請求線程就占據1個G,記憶體溢出也是情理之中的了,遂進行了第三次調優:減少線程棧空間,ThreadStackSize調至256K,也是夠用的,再次模擬1000線程併發,OK,無論是系統間線程調用還是記憶體中JVM空間都在正常情況下,並未出現線程請求不到資源的情況。


總結:

       本次壓測主要目的是確定單節點在生產環境所能承受的tps峰值,並藉助測試數據反向分析之前開發及單元測試無法覆蓋的隱藏問題,通過三次調優,我們可以發現,該環境下瓶頸主要在系統間請求發生時,以及JVM自身無法負載大數據量線程導致。當然也有可能發生在程式本身過程中,如邏輯中創造大量對象,消耗大量記憶體,或同步邏輯處理塊設計欠缺,導致死鎖、線程餓死等。筆者所描述的問題只是眾多壓測問題中的一小部分,分析、操作難免有疏漏,歡迎各位同學予以指正及建議。感謝華哥、林哥指導,感謝一鳴同學協助~


 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 簡述 OpenSSL是一個開源的第三方庫,它實現了SSL(Secure SocketLayer)和TLS(Transport Layer Security)協議,被廣泛企業應用所採用。對於一般的開發人員而言,在Win32 OpenSSL上下載已經編譯好的OpenSSL庫是省力省事的好辦法。對於高級的 ...
  • 對於剛學過框架的同學可能知道,mybatis有兩種主要的配置文件: SqlMapConfig.xml(mybatis全局配置文件,名稱不固定,用來配置運行環境(數據源、事務) XXXmapper.xml 主要用來配置sql語句 我以前做過一個項目,大概的層次結構如下: 從這個UML圖中可以看出這個項 ...
  • 如果要進行整除,使用 // 運算符,它將返回商的整數部分 >>> 4 // 3.01.0 Python中單行註釋以 # 開頭,例如: 多行註釋用三個單引號 ''' 或者三個雙引號 """ 將註釋括起來,例如: '''這是多行註釋,用三個單引號這是多行註釋,用三個單引號 這是多行註釋,用三個單引號'' ...
  • 工作中需要在c++代碼中嵌入ruby c api,然而在vs工程中編譯失敗,所以現在通過手動從源代碼編譯ruby尋找原因(之前使用rubyinstaller安裝)。 先從官網下載ruby 2.4.1 版本,https://www.ruby-lang.org/en/downloads/ 從安裝指導可以 ...
  • 1.我們需要建立一個Django的Project: django-admin.py startproject ProjectName 2.需要對這個Project 進行調整: 首次執行migrate是為了確保Django中資料庫與項目的當前狀態匹配 python manage.py migrate ...
  • 背景 環境需要設置代理才能夠訪問外部網路,如果只是運行java程式來訪問網路,我們可以通過java jar test.jar DproxyHost=proxy_ip DproxyPort=proxy_port,但如果是java的maven項目中,單元測試需要訪問網路,只執行mvn test則會導致單 ...
  • 公司的項目底層,是使用的TCP,因為可靠,自動斷線重連,在底層都實現了,但是我記得TCP也會有掉包的問題,所以這文章就誕生了——關於TCP掉包的問題,TCP是基於不可靠的網路實現可靠的傳輸,肯定也會存在掉包的情況。 如果通信中發現缺少數據或者丟包,那麼,最大的可能在於程式發送的過程或者接收的過程出現 ...
  • 這一章主要介紹什麼是[BX]以及loop(迴圈)指令怎麼使用,loop和[BX]又怎麼樣相結合,段首碼又是什麼鬼,以及如何使用段首碼。 1、[BX]的概念 [BX]和[0]類似,[0]表示記憶體單元的偏移地址是0。要完整描述一個記憶體單元,需要兩種信息:記憶體單元的地址,記憶體單元的長度(類型)。[BX]同 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...