Linux下高cpu解決方案

来源:http://www.cnblogs.com/aofo/archive/2016/12/14/6180122.html
-Advertisement-
Play Games

昨天搞定了一個十萬火急的issue,客戶抱怨產品升級後系統會變慢和CPU使用率相當高,客戶脾氣很大,聲稱不儘快解決這個問題就退貨,弄得我們 R&D壓力很大,解決這個issue的任務分給了我,客戶是南非的一個公司,由於時差問題,我只好在家遠程解決問題,晚上8點半用 gotomeeting遠程到客戶電腦 ...


昨天搞定了一個十萬火急的issue,客戶抱怨產品升級後系統會變慢和CPU使用率相當高,客戶脾氣很大,聲稱不儘快解決這個問題就退貨,弄得我們 R&D壓力很大,解決這個issue的任務分給了我,客戶是南非的一個公司,由於時差問題,我只好在家遠程解決問題,晚上8點半用 gotomeeting遠程到客戶電腦查看我們的系統,折騰了四個多小時,終於在凌晨時reproduce了這個high CPU,趕緊抓Log,用wireshark抓包,用gcore,gstack,strace和top保存了系統的相關輸出。在第2天分析了這些文件後, 找到了產品的bug,代碼的作者分配了10K的緩衝區,並想當然認為10K足以夠用,當然99%的情況下是夠用的,但是在這1%的情況下出現了問題,緩衝 區不幸被寫滿了,然後程式進入了死迴圈,導致high CPU。找到了問題了,fix就很容易了,客戶的脾氣也緩和了,fix很快就可以deliver給客戶。反思解決問題的過程,覺得這個分析過程具有可復用 性,值得總結一下。

1.用top命令查看哪個進程占用CPU高
gateway網關進程14094占用CPU高達891%,這個數值是進程內各個線程占用CPU的累加值。

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND    
14094 root      15   0  315m  10m 7308 S 891%  2.2   1:49.01 gateway                                                                                 
20642 root      17   0 17784 4148 2220 S  0.5  0.8   2:39.96 microdasys                                                                                     
 1679 root      18   0 10984 1856 1556 R  0.3  0.4   0:22.21 sshd                                                                                            
22563 root      18   0  2424 1060  800 R  0.3  0.2   0:00.03 top                                                                                             
    1 root      18   0  2156  492  460 S  0.0  0.1   0:01.59 init       


2.用top -H -p pid命令查看進程內各個線程占用的CPU百分比

#top -H -p 14094
top中可以看到有107個線程,但是下麵9個線程占用CPU很高,下麵以線程14086為主,分析其為何high CPU

  PID USER      PR  NI  VIRT  RES  SHR S %CPU MEM    TIME+  COMMAND                         

14086 root      25   0  922m 914m 538m R  101 10.0  21:35.46 gateway                          

14087 root      25   0  922m 914m 538m R  101 10.0  10:50.22 gateway                           

14081 root      25   0  922m 914m 538m S   99 10.0   8:57.36 gateway                            

14082 root      25   0  922m 914m 538m R   99 10.0  11:51.92 gateway                              

14089 root      25   0  922m 914m 538m R   99 10.0  21:21.77 gateway                             

14092 root      25   0  922m 914m 538m R   99 10.0  19:55.47 gateway                               

14094 root      25   0  922m 914m 538m R   99 10.0  21:02.21 gateway                                

14083 root      25   0  922m 914m 538m R   97 10.0  21:32.39 gateway                                 

14088  root       25   0   922m 914m  538m R    97 10.0   11:23.12  gateway


3.使用gstack命令查看進程中各線程的函數調用棧
#gstack 14094 > gstack.log
在gstack.log中查找線程ID14086,由於函數棧會暴露函數細節,因此只顯示了兩個函數楨,線程ID14086對應線程號是37

Thread 37 (Thread 0x4696ab90 (LWP 14086)):
#0  0x40000410 in __kernel_vsyscall ()
#1  0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6


4.使用gcore命令轉存進程映像及記憶體上下文

#gcore 14094
該命令生成core文件core.14094


5。用strace命令查看系統調用和花費的時間
#strace -T -r -c -p 14094

-c參數顯示統計信息,去掉此參數可以查看每個系統調用話費的時間及返回值。

% time     seconds  usecs/call     calls    errors        syscall

------ ----------- ----------- --------- --------- ----------------------------

99.99   22.683879        3385      6702                     poll

  0.00    0.001132           0      6702                     gettimeofday

  0.00    0.000127           1       208       208          accept

  0.00    0.000022          22         1                    read

  0.00    0.000000           0         1                    write

  0.00    0.000000           0         1                    close

  0.00    0.000000           0        14                    time

  0.00    0.000000           0         2                    stat64

  0.00    0.000000           0         4                    clock_gettime

  0.00    0.000000           0         7                    send

  0.00    0.000000           0        10        10          recvfrom

------ ----------- ----------- --------- --------- ------------------------------

100.00   22.685160                 13652       218 total




6.用gdb調試core文件,並線程切換到37號線程
gcore和實際的core dump時產生的core文件幾乎一樣,只是不能用gdb進行某些動態調試

(gdb) gdb gateway core.14094
(gdb) thread 37
[Switching to thread 37 (Thread 0x4696ab90 (LWP 14086))]#0  0x40000410 in __kernel_vsyscall ()
(gdb) where
#0  0x40000410 in __kernel_vsyscall ()
#1  0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6
可以根據詳細的函數棧進行gdb調試,列印一些變數值,並結合源代碼分析為何會poll調用占用很高的CPU。
因為代碼涉及到公司產權,顧不在此做詳細分析,需要明白的是分析的流程和使用的命令。

流程為:進程ID->線程ID->線程函數調用棧->函數耗時和調用統計->源代碼分析
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 換了一臺新電腦, 在使用 ant 拷貝大量文件的時候 cmd 視窗過了很久沒有繼續輸出新的內容,遠遠超過平時的耗時, 以為已經卡死 按下 ctrl + c 取消, 這時並沒有取消, 而是輸出了新內容,顯示整個過程已經完成 build success了 。 執行其他耗時命令也是這樣,不繼續輸出。 go ...
  • 一、μCos-ii _概述 網上關於μCosii的文章多不勝數,本人學習的過程中也參考了很多人的理解和想法,看的是盧有亮老師的《嵌入式實時操作系統-μC/OS原理與實踐》(第2版),同時也參考了邵貝貝老師的《嵌入式實時操作系統μCOS-II》,斷斷續續一個月看了幾遍書,也在stm32上簡單移植了μC ...
  • 一、LAMP環境的介紹 1.LAMP環境的重要性 思索許久,最終還是決定寫一篇詳細的LAMP的源碼編譯安裝的實驗文檔,一來是為了給自己一個交代,把技術進行系統的歸納,將技術以極致的形式呈現出來,做為一個做技術的應該有的態度要通過這篇文檔展現,做為以後二來也是為了給那些一直在尋找詳細文檔來細緻學習的人 ...
  • 這種情況有兩種情況,一種是遠程伺服器出現故障。另一種是自己的電腦出現問題,具體原因我還沒有找到,但是可以肯定的是註冊表除了問題,一個終極的解決辦法就是把註冊表替換了。先將HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\Rasman 路徑的註冊 ...
  • 在Win10系統里右鍵開始菜單,選擇彈出菜單里的命令提示符,如下圖所示:然後複製要粘貼的文字,例如:echo hovertree.com把上面的文字複製後,點擊命令提示符視窗,然後在命令提示符視窗的標題欄上右鍵,選擇彈出菜單的編輯-->粘貼,也可以直接在游標的位置點擊滑鼠右鍵,如下圖所示。效果如下: ...
  • 字元設備是Linux三大設備之一(另外兩種是塊設備,網路設備),字元設備就是位元組流形式通訊的I/O設備,絕大部分設備都是字元設備,常見的字元設備包括滑鼠、鍵盤、顯示器、串口等等,當我們執行 ls l /dev 的時候,就能看到大量的設備文件, c 就是字元設備, b 就是塊設備,網路設備沒有對應的設 ...
  • Linux許可權管理 chgrp :改變檔案所屬群組 # chgrp [-R] 群組 dirname/filename ... chown :改變檔案擁有者 # chown [-R] 賬號名稱 文件名或目錄 # chown [-R] 賬號名稱:組名 文件名或目錄 chmod :改變檔案的許可權, SUI ...
  • 安裝samba服務步驟ps -e 查看進程ps -e | grep 文件名 管道符的使用rpm -qa 安裝包的查看rpm -qa | grep samba 抓Samba安裝包 註釋:包與包之間有依賴關係,必須保證網路是暢通的 第一步:yum install samba samba-client s ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...