Linux下高cpu解決方案_ZenDei技術網路在線

Linux下高cpu解決方案

-Advertisement-

昨天搞定了一個十萬火急的issue，客戶抱怨產品升級後系統會變慢和CPU使用率相當高，客戶脾氣很大，聲稱不儘快解決這個問題就退貨，弄得我們 R&D壓力很大，解決這個issue的任務分給了我，客戶是南非的一個公司，由於時差問題，我只好在家遠程解決問題，晚上8點半用 gotomeeting遠程到客戶電腦 ...

昨天搞定了一個十萬火急的issue，客戶抱怨產品升級後系統會變慢和CPU使用率相當高，客戶脾氣很大，聲稱不儘快解決這個問題就退貨，弄得我們 R&D壓力很大，解決這個issue的任務分給了我，客戶是南非的一個公司，由於時差問題，我只好在家遠程解決問題，晚上8點半用 gotomeeting遠程到客戶電腦查看我們的系統，折騰了四個多小時，終於在凌晨時reproduce了這個high CPU，趕緊抓Log，用wireshark抓包，用gcore,gstack,strace和top保存了系統的相關輸出。在第2天分析了這些文件後，找到了產品的bug，代碼的作者分配了10K的緩衝區，並想當然認為10K足以夠用，當然99%的情況下是夠用的，但是在這1%的情況下出現了問題，緩衝區不幸被寫滿了，然後程式進入了死迴圈，導致high CPU。找到了問題了，fix就很容易了，客戶的脾氣也緩和了，fix很快就可以deliver給客戶。反思解決問題的過程，覺得這個分析過程具有可復用性，值得總結一下。

1.用top命令查看哪個進程占用CPU高
gateway網關進程14094占用CPU高達891%，這個數值是進程內各個線程占用CPU的累加值。

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
14094 root      15   0  315m  10m 7308 S 891%  2.2   1:49.01 gateway
20642 root      17   0 17784 4148 2220 S  0.5  0.8   2:39.96 microdasys
1679 root      18   0 10984 1856 1556 R  0.3  0.4   0:22.21 sshd
22563 root      18   0  2424 1060  800 R  0.3  0.2   0:00.03 top
    1 root      18   0  2156  492  460 S  0.0  0.1   0:01.59 init

2.用top -H -p pid命令查看進程內各個線程占用的CPU百分比

#top -H -p 14094
top中可以看到有107個線程，但是下麵9個線程占用CPU很高，下麵以線程14086為主，分析其為何high CPU

PID USER PR NI VIRT RES SHR S %CPU MEM TIME+ COMMAND

14086 root 25 0 922m 914m 538m R 101 10.0 21:35.46 gateway

14087 root 25 0 922m 914m 538m R 101 10.0 10:50.22 gateway

14081 root 25 0 922m 914m 538m S 99 10.0 8:57.36 gateway

14082 root 25 0 922m 914m 538m R 99 10.0 11:51.92 gateway

14089 root 25 0 922m 914m 538m R 99 10.0 21:21.77 gateway

14092 root 25 0 922m 914m 538m R 99 10.0 19:55.47 gateway

14094 root 25 0 922m 914m 538m R 99 10.0 21:02.21 gateway

14083 root 25 0 922m 914m 538m R 97 10.0 21:32.39 gateway

14088 root 25 0 922m 914m 538m R 97 10.0 11:23.12 gateway

3.使用gstack命令查看進程中各線程的函數調用棧
#gstack 14094 > gstack.log
在gstack.log中查找線程ID14086，由於函數棧會暴露函數細節，因此只顯示了兩個函數楨，線程ID14086對應線程號是37

Thread 37 (Thread 0x4696ab90 (LWP 14086)):
#0 0x40000410 in __kernel_vsyscall ()
#1 0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6

4.使用gcore命令轉存進程映像及記憶體上下文

#gcore 14094
該命令生成core文件core.14094

5。用strace命令查看系統調用和花費的時間
#strace -T -r -c -p 14094

-c參數顯示統計信息，去掉此參數可以查看每個系統調用話費的時間及返回值。

% time seconds usecs/call calls errors syscall

------ ----------- ----------- --------- --------- ----------------------------

99.99 22.683879 3385 6702 poll

0.00 0.001132 0 6702 gettimeofday

0.00 0.000127 1 208 208 accept

0.00 0.000022 22 1 read

0.00 0.000000 0 1 write

0.00 0.000000 0 1 close

0.00 0.000000 0 14 time

0.00 0.000000 0 2 stat64

0.00 0.000000 0 4 clock_gettime

0.00 0.000000 0 7 send

0.00 0.000000 0 10 10 recvfrom

------ ----------- ----------- --------- --------- ------------------------------

100.00 22.685160 13652 218 total

6.用gdb調試core文件，並線程切換到37號線程
gcore和實際的core dump時產生的core文件幾乎一樣，只是不能用gdb進行某些動態調試

(gdb) gdb gateway core.14094
(gdb) thread 37
[Switching to thread 37 (Thread 0x4696ab90 (LWP 14086))]#0  0x40000410 in __kernel_vsyscall ()
(gdb) where
#0  0x40000410 in __kernel_vsyscall ()
#1  0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6
可以根據詳細的函數棧進行gdb調試，列印一些變數值，並結合源代碼分析為何會poll調用占用很高的CPU。
因為代碼涉及到公司產權，顧不在此做詳細分析，需要明白的是分析的流程和使用的命令。

流程為：進程ID->線程ID->線程函數調用棧->函數耗時和調用統計->源代碼分析

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Windows cmd 長時間不輸出新內容直到按下ctrl + c 取消或者回車的解決辦法

換了一臺新電腦，在使用 ant 拷貝大量文件的時候 cmd 視窗過了很久沒有繼續輸出新的內容，遠遠超過平時的耗時，以為已經卡死按下 ctrl + c 取消，這時並沒有取消，而是輸出了新內容，顯示整個過程已經完成 build success了。執行其他耗時命令也是這樣，不繼續輸出。 go ...
μCos-ii學習筆記1_概述

一、μCos-ii _概述網上關於μCosii的文章多不勝數，本人學習的過程中也參考了很多人的理解和想法,看的是盧有亮老師的《嵌入式實時操作系統-μC/OS原理與實踐》（第2版），同時也參考了邵貝貝老師的《嵌入式實時操作系統μCOS-II》，斷斷續續一個月看了幾遍書，也在stm32上簡單移植了μC ...
Web應用之LAMP源碼環境部署

一、LAMP環境的介紹 1.LAMP環境的重要性思索許久，最終還是決定寫一篇詳細的LAMP的源碼編譯安裝的實驗文檔，一來是為了給自己一個交代，把技術進行系統的歸納，將技術以極致的形式呈現出來，做為一個做技術的應該有的態度要通過這篇文檔展現，做為以後二來也是為了給那些一直在尋找詳細文檔來細緻學習的人 ...
VPN連接常見錯誤彙總

這種情況有兩種情況，一種是遠程伺服器出現故障。另一種是自己的電腦出現問題，具體原因我還沒有找到，但是可以肯定的是註冊表除了問題，一個終極的解決辦法就是把註冊表替換了。先將HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\Rasman 路徑的註冊 ...
Win10命令提示符(cmd)怎麼複製粘貼

在Win10系統里右鍵開始菜單，選擇彈出菜單里的命令提示符，如下圖所示：然後複製要粘貼的文字,例如：echo hovertree.com把上面的文字複製後，點擊命令提示符視窗，然後在命令提示符視窗的標題欄上右鍵，選擇彈出菜單的編輯-->粘貼，也可以直接在游標的位置點擊滑鼠右鍵，如下圖所示。效果如下： ...
Linux字元設備驅動框架

字元設備是Linux三大設備之一(另外兩種是塊設備，網路設備)，字元設備就是位元組流形式通訊的I/O設備,絕大部分設備都是字元設備，常見的字元設備包括滑鼠、鍵盤、顯示器、串口等等，當我們執行 ls l /dev 的時候，就能看到大量的設備文件， c 就是字元設備， b 就是塊設備，網路設備沒有對應的設 ...
Linux學習

Linux許可權管理 chgrp ：改變檔案所屬群組 # chgrp [-R] 群組 dirname/filename ... chown ：改變檔案擁有者 # chown [-R] 賬號名稱文件名或目錄 # chown [-R] 賬號名稱:組名文件名或目錄 chmod ：改變檔案的許可權, SUI ...
samba服務

安裝samba服務步驟ps -e 查看進程ps -e | grep 文件名管道符的使用rpm -qa 安裝包的查看rpm -qa | grep samba 抓Samba安裝包註釋：包與包之間有依賴關係，必須保證網路是暢通的第一步：yum install samba samba-client s ...