線上問題排查回答(轉載)

来源:https://www.cnblogs.com/mzBlogs/archive/2023/04/27/17359351.html
-Advertisement-
Play Games

Python語言中有6個標準數據類型。 不可變數據(3 個):Number(數字)、String(字元串)、Tuple(元組); 可變數據(3 個):List(列表)、Dictionary(字典)、Set(集合)。 有序數據:元組,列表 無序數據:集合,字典 數字number 整型int 正或負整數 ...


面試官:「你是怎麼定位線上問題的?」

這個面試題我在兩年社招的時候遇到過,前幾天面試也遇到了。我覺得我每一次都答得中規中矩,今天來梳理復盤下,下次又被問到的時候希望可以答得更好。

下一次我應該會按照這個思路去答:

1、如果線上出現了問題,我們更多的是希望由監控告警發現我們出了線上問題,而不是等到業務側反饋。所以,我們需要對核心介面做好監控告警的功能。

2、如果是業務代碼層面的監控報警,那我們應該是可以很快地定位出是哪兒的問題,畢竟告警邏輯都是我們寫的嘛。如果是伺服器資源/所依賴的中間件告警,那我們可能就要花點時間去排查啦。

3、不管怎麼樣,無論是系統告警還是是業務側反饋系統或者介面出了問題。我們要想想在近期有沒有發佈過系統,如果近期發佈過系統,判斷能不能立馬回滾到上一個版本,恢復系統平穩正常運行(線上上環境下,可用性是相當重要的)。回滾的時候要考慮介面有無依賴性,是否需要跟業務側同步此次的回滾以及做相關的配合。

4、因為線上大多數的問題都來源於系統的變更,可能我們只是變更了很少的代碼,但只要有一絲的邏輯沒留意到,就真的很可能會導致出現問題,回滾很可能是最快能恢複線上正常運行的辦法。

5、如果近期都沒發佈過系統,是系統告的警,那追蹤下告警和報錯日誌,應該是可以很快地就能定位出問題。

6、如果不是系統告的警,是業務側反饋出了問題,那這時候需要業務側明確是哪個具體的功能/介面出了問題,有沒有保留請求入參,有沒有返回錯誤的信息,有何現象

7、知道了問題的現象之後,就需要根據經驗排查可能是哪塊出了問題了。我的經驗一般是:先查存儲側有沒有瓶頸(MySQL 的CPU有沒有飆高,主從同步延遲是否很大,有沒有慢SQL。Redis是不是記憶體滿了,走了淘汰策略。搜索引擎有沒有慢Query),把該服務所依賴的中間件的指標看一遍,這個過程中也要去看看服務介面的QPS/RT相關的監控。如果有某項指標不對勁,那順著寫入邏輯也應該很快能看出來

8、一般到這裡,大多數的問題都能查出來。可能是邏輯本身的問題,可能是請求入參導致慢查詢,可能是中間件的網路抖動,可能是突發或者異常請求的問題。

9、如果都不是,回歸到應用和機器本身的監控:應用GC的表現、機器本身的網路/磁碟/記憶體/CPU 各種的指標有沒有發現異常的情況。這裡可能是需要運維側一起配合看看有沒有做過改動。

10、要是還定位不出來,看能不能復現,能復現都好說,肯定是能解決的。

11、要是不能復現,只能在懷疑的地方打上詳細的日誌再好好觀察(問題定位不出來,很多時候就是日誌不夠詳細,而日誌在正常情況下也不應該打太多)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通過小demo的方式跟大家分享一下我對DDD中戰術層級的理解,算是拋磚引玉,該理解僅代表我個人在現階段的一個理解,也可能未來隨著業務經驗深入,還會有不同的理解。 ...
  • 簡介 單例模式(Singleton Pattern)屬於創建型設計模式,這種模式只創建一個單一的類,保證一個類只有一個實例,並提供一個訪問該實例的全局節點。 當您想控制實例數目,節省系統資源,並不想混用的時候,可以使用單例模式。單例有很多種實現方式,主要分為懶漢和餓漢模式,同時要通過加鎖來避免線程安 ...
  • 非常簡單的一題了,但還是交了兩三次,原因:對數組的理解不足;對數字和字元之間的轉換不夠敏感。這將在下文中細說。 Given a non-negative integer N, your task is to compute the sum of all the digits of N, and ou ...
  • 使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。本篇對 VLD 1.0 源碼做記憶體泄漏檢測的思路進行剖析。 ...
  • [USACO07DEC]Mud Puddles S 題目描述 Farmer John is leaving his house promptly at 6 AM for his daily milking of Bessie. However, the previous evening saw a ...
  • 題目描述 大家一定覺得運動以後喝可樂是一件很愜意的事情,但是seeyou卻不這麼認為。因為每次當seeyou買了可樂以後,阿牛就要求和seeyou一起分享這一瓶可樂,而且一定要喝的和seeyou一樣多。但seeyou的手中只有兩個杯子,它們的容量分別是N 毫升和M 毫升 可樂的體積為$S (S < ...
  • 原文地址: JavaFx 實現水平滾動文本(跑馬燈效果) - Stars-One的雜貨小窩 本文是以TornadoFx框架進行編寫,各位使用JavaFx可以參考 代碼已經封裝在common-controls庫中 效果 代碼 實現原理就是利用了JavaFx里的動畫效果去修改scrollpane的tra ...
  • Spire.Doc for C++ 是一個專業的 Word 庫,供開發人員在任何類型的 C++ 應用程式中閱讀、創建、編輯、比較和轉換 Word 文檔。 本文演示瞭如何以兩種不同的方式將 Spire.Doc for C++ 集成到您的 C++ 應用程式中。 通過 NuGet 安裝 Spire.Doc ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...