分散式跟蹤調研與設計

来源:http://www.cnblogs.com/tylercao/archive/2017/10/15/7674080.html
-Advertisement-
Play Games

背景 公司業務由數以百計的分散式服務溝通,每一個請求路由過來後,會經過多個業務系統並留下足跡,並產生對各種緩存或者DB的訪問,但是這些分散的數據對於問題排查,或者流程優化比較有限。對於一個跨進程的場景,彙總收集並分析海量日誌就顯得尤為重要。在這種架構下,跨進程的業務流會經過很多個微服務的處理和傳遞, ...


背景

公司業務由數以百計的分散式服務溝通,每一個請求路由過來後,會經過多個業務系統並留下足跡,並產生對各種緩存或者DB的訪問,但是這些分散的數據對於問題排查,或者流程優化比較有限。對於一個跨進程的場景,彙總收集並分析海量日誌就顯得尤為重要。在這種架構下,跨進程的業務流會經過很多個微服務的處理和傳遞,我們難免會遇到這樣的問題:

  • 一次請求的流量從哪個服務而來? 最終落到了哪個服務中去?
  • 為什麼這個請求這麼慢? 到底哪個環節出了問題?
  • 這個操作需要依賴哪些東西? 是資料庫還是消息隊列? Redis掛了,哪些業務受影響?

對於這個問題,業內已經有了一些實踐和解決方案,通過調用鏈的方式,把一次請求調用過程完整的串聯起來,這樣就實現了對請求條用路徑的監控。在業界,Twitter的Zipkin和淘寶的鷹眼就是類似的系統,它們都起源於Google Dapper論文,就像歷史上Hadoop起源於Google Map/Reduce論文,Hbase起源於Google BigTable論文一樣

設計目標

  • 低消耗性:跟蹤系統對業務系統的影響應該做到足夠小。在一些高度優化過的服務,即使一點點損耗也容易察覺到,而且有可能迫使線上負責的部署團隊不得不將跟蹤系統關停
  • 低侵入性:作為非業務組件,應當儘可能少侵入或者無侵入業務系統,對於使用方透明,減少開發人員的負擔
  • 時效性:從數據的收集產生,到數據計算處理,再到最終展現,都要求儘可能快
  • 決策支持:這些數據是否能在決策支持層面發揮作用,特別是從DevOps的角度
  • 數據可視化:做到不用看日誌通過可視化進行篩選

實現功能

  • 故障快速定位
    • 調用鏈路跟蹤,一次請求的邏輯軌跡可以完整清晰的展示出來。
  • 各個調用環節的性能分析
    • 調用鏈的各個環節分表添加調用耗時,可以分析出系統的性能瓶頸,並針對性的優化。
  • 數據分析
    • 調用鏈是一條完整的業務日誌,可以得到用戶的行為路徑,彙總分析應用在很多業務場景

設計性能指標

項目 指標
kafka > 5000 Query Per Second
數據延遲 < 1 Min
查詢延遲 < 3 Second

相關軟體與硬體

名稱 數量 備註
Kafka 1套3節點 與監控系統共用一套集群,分屬不同Topic
ElasticSearch 1套3節點 與ELK共用一套集群,前提ELK需做擴容準備
API機器 虛擬機3台 公司標準虛擬機配置4core 8G即可

系統限制

公司服務部署在多個機房中,但是分散式跟蹤的數據需彙總收集並展示,故暫時進行採用不了多機房部署方案。考慮到分散式跟蹤系統類似於ELK系統的基礎服務,部署架構與現有ELK保證一致,核心服務部署在B7機房

設計思路

一般分散式跟蹤系統, 主要有三個部分:數據收集,數據存儲和數據展示。根據系統大小不同,每一部分的結構又有一定變化。譬如,對於大規模分散式系統,數據存儲可分為實時數據和全量數據兩部分,實時數據用於故障排查,全量數據用於系統優化;數據收集除了支持平臺無關和開發語言無關係統的數據收集,還包括非同步數據收集(需要跟蹤隊列中的消息,保證調用的連貫性),以及確保更小的侵入性;數據展示又涉及到數據挖掘和分享。雖然每一部分都可能變的很複雜,但基本原理都類似。
image

圖1:這個路徑由用戶的X請求發起,穿過一個簡單的服務系統。用字母標識的節點代表分散式系統中的不同處理過程。

分散式服務的跟蹤系統需要記錄在一次特定的請求後系統中完成的所有工作的信息。舉個例子,圖1展現的是一個和5台伺服器相關的一個服務,包括:前端(A),兩個中間層(B和C),以及兩個後端(D和E)。當一個用戶(這個用例的發起人)發起一個請求時,首先到達前端,然後發送兩個RPC到伺服器B和C。B會馬上做出反應,但是C需要和後端的D和E交互之後再返還給A,由A來響應最初的請求。對於這樣一個請求,簡單實用的分散式跟蹤的實現,就是為伺服器上每一次你發送和接收動作來收集跟蹤標識符(message identifiers)和時間戳(timestamped events)。

黑盒和標簽方案

為了將所有記錄條目與發起者慣量上並記錄所有信息,現在有兩種解決方案,黑盒和基於標簽(annotation-based)的監控方案。
黑盒方案採用framework為基礎,將依賴集成進去,對各接入業務線透明。基於標簽的方案,依賴業務線明確標記一個trace id,從而連接每一條記錄和發起者的請求。基於標簽的方案主要缺點很明顯,需要植入與業務無關代碼。所以預設情況下,我們提供基於hjframework公共組件的方案,實現跟蹤系統對業務無感知。同時如果需要顯示使用這個標簽功能的話,我們同樣提供出來,由業務方自行決定是否使用標簽。

技術選型

公司 選項 是否開源 優缺點
淘寶 EagleEye 主要基於內部HSF實現,HSF沒有開源,故鷹眼也沒有開源
Twitter Zipkin 基於Http實現,支持語言較多,比較適合我們公司業務
點評 CAT 自定義改造難度大,代碼比較複雜,侵入代碼,需要埋點
京東 Hydra 主要基於Dubbo實現,不適合公司Http請求為主的場景

綜上所述,最終我們覺得採用Zipkin的方式來實現,比較適合公司目前以Http請求為主的場景。雖然採用第三方開源產品,但是客戶端依賴的SDK,仍需我們開發集成到HJFramewor中。針對Node和JS,Zipkin同樣提供對應的前端SDK,我們集成好之後,就能正常使用。

系統設計

整體架構圖及說明

基於Zipkin的基礎上,我們對其架構進行了擴展,基於Google Dapper的概念,設計一套基於Http的分散式跟蹤系統。其種涵蓋了信息的收集,處理和展現。
整體架構如下圖所示,主要由四個部分構成:收集器、數據傳輸、數據存儲、查詢及web界面

收集器

業務方之間依賴我們提供的SDK,進行數據收集。其中SDK主要採用Spring Cloud中分散式跟蹤模塊是Spring Cloud Sleuth。該模塊主要用於收集Spring boot系統中數據,發送至緩衝隊列Kafka中。同時官方提供了針對Node、Python等一些常用的客戶端SDK

數據傳輸

我們在SDK與後端服務之間加了一層Kafka,這樣做既可以實現兩邊工程的解耦,又可以實現數據的延遲消費。我們不希望因為瞬時QPS過高而導致數據丟失,當然為此也付出了一些實效性上的代價。

數據存儲

預設存儲採用ElasticSearch 來保證數據,考慮到數據量的規模,先期只保存最近1個月的數據

查詢及Web界面

查詢主要用來向其他服務提供數據查詢的能力,而Web服務是官方預設提供的圖形化界面,我們會重寫這塊頁面,使之與滬江內部平臺結合起來。

SDK分析

調用鏈跟蹤:把同一個TraceID和SpanID收集起來,按時間排序Timeline,把ParentID串起來就是調用棧。
image

參考資料

  • Google的大規模分散式系統的跟蹤系統Dapper
  • Twitter開源的Zipkin
  • 窩窩網介紹Tracing的一篇博客

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • PS:本系列內容進度節奏會放的很慢,每次知識點都儘量少一點,這樣大家接觸的知識點少了,會更容易理解,因為少即是多。另外,對於後面代碼部分,雖然儘量不用那些複雜的封裝和類,但它並不表示看了就能全部記住,並懂得每個函數的用法,在什麼時候去調用,清楚它輸入的參數類型、能處理的參數類型和輸出的結果是什麼。它 ...
  • 使用 JPA 和 Hibernate 的好處之一是它提供了資料庫特定方言和功能抽象。 因此,理論上,您可以實現一個應用程式,將其連接到一個受支持的資料庫,並且它可以在不用更改任何代碼的情況下運行。Hibernate 真的很好。 但老實說,您沒有想過您的應用程式能與每個支持的資料庫完美運行,是嗎? ...
  • #include #include #include using namespace std; int main(){ double a,b,c; cout>a>>b>>c; if(a+b>c&&b+c>a&&c+a>b){ double s,area; s=(a+b+c)/2; area=sqrt... ...
  • 本節內容 - 通用可執行文件結構(COFF)(readelf -h) - COFF用段(section)存儲不同類型數據(readelf -S) - 常用段 - 演示:使用readelf、xxd、objdump、gdb查看可執行文件結構信息 - 演示:objcopy -add-section;st... ...
  • Given an array of n integers and q queries. Write a program to print floor value of mean in range l to r for each query in a new line. Input: The firs ...
  • #include #include using namespace std; //保留2位小數 int main(){ double x=123.456; double y=3.14159; double z=-3214.67; cout<<setiosflags(ios::fixed)<<seti... ...
  • Description:Java SE 9 is the latest update to the Java Platform(General Availability on 21 September 2017). This release includes much awaited new fea ...
  • 除了nodejs之外,後端技術(php/java等)及環境搭建一直都是大多數web前端開發人員的弱項,而且每當公司里進來一個新的前端開發人員,第一件事情要做的就是搭建開發環境,需要在新的電腦上安裝IDE、nodejs、npm以及團隊裡面需要用到的技術所需要的依賴,一般需要花費一兩天時間;另外,如果團 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...