以位元組跳動內部 Data Catalog 架構升級為例聊業務系統的性能優化

来源:https://www.cnblogs.com/bytedata/archive/2022/06/08/16355319.html
-Advertisement-
Play Games

位元組的 DataCatalog 系統,在 2021 年進行過大規模重構,新版本的存儲層基於 Apache Atlas 實現。遷移過程中,我們遇到了比較多的性能問題。本文以 Data Catalog 系統升級過程為例,與大家討論業務系統性能優化方面的思考,也會介紹我們關於 Apache Atlas 相... ...


背景

位元組跳動 Data Catalog 產品早期,是基於 LinkedIn Wherehows 進行二次改造,產品早期只支持 Hive 一種數據源。後續為了支持業務發展,做了很多修修補補的工作,系統的可維護性和擴展性變得不可忍受。比如為了支持數據血緣能力,引入了位元組內部的圖資料庫 veGraph,寫入時,需要業務層處理 MySQL、ElasticSearch 和 veGraph 三種存儲,模型也需要同時理解關係型和圖兩種。更多的背景可以參照之前的文章。

新版本保留了原有版本全量的產品能力,將存儲層替換成了 Apache Atlas。然而,當我們把存量數據導入到新系統時,許多介面的讀寫性能都有嚴重下降,伺服器資源的使用也被拉伸到誇張的地步,比如:

  • 寫入一張超過 3000 列的 Hive 表元數據時,會持續將服務節點的 CPU 占用率提升到 100%,十幾分鐘後觸發超時
  • 一張幾十列的埋點表,上下游很多,打開詳情展示時需要等 1 分鐘以上
    為此,我們進行了一系列的性能調優,結合 Data Catlog 產品的特點,調整了 Apache Atlas 以及底層 Janusgraph 的實現或配置,並對優化性能的方法論做了一些總結。

業務系統優化的整體思路

在開始討論更多細節之前,先概要介紹下我們做業務類系統優化的思路。本文中的業務系統,是相對於引擎系統的概念,特指解決某些業務場景,給用戶直接暴露前端使用的 Web 類系統。
優化之前,首先應明確優化目標。
與引擎類系統不同,業務類系統不會追求極致的性能體驗,更多是以解決實際的業務場景和問題出發,做針對性的調優,需要格外註意避免過早優化與過度優化。
準確定位到瓶頸,才能事半功倍。
一套業務系統中,可以優化的點通常有很多,從業務流程梳理到底層組件的性能提升,但是對瓶頸處優化,才是 ROI 最高的。
根據問題類型,挑性價比最高的解決方案。
解決一個問題,通常會有很多種不同的方案,就像條條大路通羅馬,但在實際工作中,我們通常不會追求最完美的方案,而是選用性價比最高的。
優化的效果得能快速得到驗證。
性能調優具有一定的不確定性,當我們做了某種優化策略後,通常不能上線觀察效果,需要一種更敏捷的驗證方式,才能確保及時發現策略的有效性,並及時做相應的調整。

業務系統優化的細節

優化目標的確定

在業務系統中做優化時,比較忌諱兩件事情:

  • 過早優化:在一些功能、實現、依賴系統、部署環境還沒有穩定時,過早的投入優化代碼或者設計,在後續系統發生變更時,可能會造成精力浪費。
  • 過度優化:與引擎類系統不同,業務系統通常不需要跑分或者與其他系統產出性能對比報表,實際工作中更多的是貼合業務場景做優化。比如用戶直接訪問前端界面的系統,通常不需要將響應時間優化到 ms 以下,幾十毫秒和幾百毫秒,已經是滿足要求的了。
優化範圍選擇

對於一個業務類 Web 服務來說,特別是重構階段,優化範圍比較容易圈定,主要是找出與之前系統相比,明顯變慢的那部分 API,比如可以通過以下方式收集需要優化的部分:
• 通過前端的慢查詢捕捉工具或者後端的監控系統,篩選出 P90 大於 2s 的 API
• 頁面測試過程中,研發和測試同學陸續反饋的 API
• 數據導入過程中,研發發現的寫入慢的 API 等

優化目標確立

針對不同的業務功能和場景,定義儘可能細緻的優化目標,以 Data Catalog 系統為例:

定位性能瓶頸手段

系統複雜到一定程度時,一次簡單的介面調用,都可能牽扯出底層廣泛的調用,在優化某個具體的 API 時,如何準確找出造成性能問題的瓶頸,是後續其他步驟的關鍵。下麵的表格是我們總結的常用瓶頸排查手段。

優化策略

在找到某個介面的性能瓶頸後,下一步是著手處理。同一個問題,修複的手段可能有多種,實際工作中,我們優先考慮性價比高的,也就是實現簡單且有明確效果。

快速驗證

優化的過程通常需要不斷的嘗試,所以快速驗證特別關鍵,直接影響優化的效率。

Data Catalog 系統優化舉例

在我們升級位元組 Data Catalog 系統的過程中,廣泛使用了上文中介紹的各種技巧。本章節,我們挑選一些較典型的案例,詳細介紹優化的過程。

調節 JanusGraph 配置

實踐中,我們發現以下兩個參數對於 JanusGraph 的查詢性能有比較大的影響:

  • query.batch = ture
  • query.batch-property-prefetch=true
    其中,關於第二個配置項的細節,可以參照我們之前發佈的文章。這裡重點講一下第一個配置。
    JanusGraph 做查詢的行為,有兩種方式:

針對位元組內部的應用場景,元數據間的關係較多,且元數據結構複雜,大部分查詢都會觸發較多的節點訪問,我們將 query.batch 設置成 true 時,整體的效果更好。

調整 Gremlin 語句減少計算和 IO

一個比較典型的應用場景,是對通過關係拉取的其他節點,根據某種屬性做 Count。在我們的系統中,有一個叫“BusinessDomain”的標簽類型,產品上,需要獲取與某個此類標簽相關聯的元數據類型,以及每種類型的數量,返回類似下麵的結構體:

{ "guid": "XXXXXX", "typeName": "BusinessDomain", "attributes": { "nameCN": "直播", "nameEN": null, "creator": "XXXX", "department": "XXXX", "description": "直播業務標簽" }, "statistics": [ { "typeName": "ClickhouseTable", "count": 68 }, { "typeName": "HiveTable", "count": 601 } ] }

我們的初始實現轉化為 Gremlin 語句後,如下所示,耗時 2~3s:

g.V().has('__typeName', 'BusinessDomain') .has('__qualifiedName', eq('XXXX')) .out('r:DataStoreBusinessDomainRelationship') .groupCount().by('__typeName') .profile();

優化後的 Gremlin 如下,耗時~50ms:

g.V().has('__typeName', 'BusinessDomain') .has('__qualifiedName', eq('XXXX')) .out('r:DataStoreBusinessDomainRelationship') .values('__typeName').groupCount().by() .profile();

Atlas 中根據 Guid 拉取數據計算邏輯調整

對於詳情展示等場景,會根據 Guid 拉取與實體相關的數據。我們優化了部分 EntityGraphRetriever 中的實現,比如:

  • mapVertexToAtlasEntity 中,修改邊遍歷的讀數據方式,調整為以點以及點上的屬性過濾拉取,觸發 multiPreFetch 優化。
  • 支持根據邊類型拉取數據,在應用層根據不同的場景,指定不同的邊類型集合,做數據的裁剪。最典型的應用是,在詳情展示頁面,去掉對血緣關係的拉取。
  • 限制關係拉取的深度,在我們的業務中,大部分關係只需要拉取一層,個別的需要一次性拉取兩層,所以我們介面實現上,支持傳入拉取關係的深度,預設一層。
    配合其他的修改,對於被廣泛引用的埋點表,讀取的耗時從~1min 下降為 1s 以內。

對大量節點依次獲取信息加並行處理

在血緣相關介面中,有個場景是需要根據血緣關係,拉取某個元數據的上下游 N 層元數據,新拉取出的元數據,需要額外再查詢一次,做屬性的擴充。
我們採用增加並行的方式優化,簡單來說:

  • 設置一個 Core 線程較少,但 Max 線程數較多的線程池:需要拉取全量上下游的情況是少數,大部分情況下幾個 Core 線程就夠用,對於少數情況,再啟用額外的線程。
  • 在批量拉取某一層的元數據後,將每個新拉取的元數據頂點加入到一個線程中,線上程中單獨做屬性擴充
  • 等待所有的線程返回
    對於關係較多的元數據,優化效果可以從分鐘級到秒級。

對於寫入瓶頸的優化

位元組的數倉中有部分大寬表,列數超過 3000。對於這類元數據,初始的版本幾乎沒法成功寫入,耗時也經常超過 15 min,CPU 的利用率會飆升到 100%。

定位寫入的瓶頸

我們將線上的一臺機器從 LoadBalance 中移除,並構造了一個擁有超過 3000 個列的元數據寫入請求,使用 Arthas 的 itemer 做 Profile,得到下圖:

從上圖可知,總體 70%左右的時間,花費在 createOrUpdate 中引用的 addProperty 函數。
耗時分析

  1. JanusGraph 在寫入一個 property 的時候,會先找到跟這個 property 相關的組合索引,然後從中篩選出 Coordinality 為“Single”的索引

  2. 在寫入之前,會 check 這些為 Single 的索引是否已經含有了當前要寫入的 propertyValue

  3. 組合索引在 JanusGraph 中的存儲格式為:

  4. Atlas 預設創建的“guid”屬性被標記為 globalUnique,他所對應的組合索引是__guid。

  5. 對於其他在類型定義文件中被聲明為“Unique”的屬性,比如我們業務語義上全局唯一的“qualifiedName”,Atlas 會理解為“perTypeUnique”,對於這個 Property 本身,如果也需要建索引,會建出一個 coordinity 是 set 的完全索引,為“propertyName+typeName”生成一個唯一的完全索引

  6. 在調用“addProperty”時,會首先根據屬性的類型定義,查找“Unique”的索引。針對“globalUnique”的屬性,比如“guid”,返回的是“__guid”;針對“perTypeUnique”的屬性,比如“qualifiedName”,返回的是“propertyName+typeName”的組合索引。

  7. 針對唯一索引,會嘗試檢查“Unique”屬性是否已經存在了。方法是拼接一個查詢語句,然後到圖裡查詢

  8. 在我們的設計中,寫入表的場景,每一列都有被標記為唯一的“guid”和“qualifiedName”,“guid”會作為全局唯一來查詢對應的完全索引,“qualifiedName”會作為“perTypeUnique”的查詢“propertyName+typeName”的組合完全索引,且整個過程是順序的,因此當寫入列很多、屬性很多、關係很多時,總體上比較耗時。

優化思路

  • 對於“guid”,其實在創建時已經根據“guid”的生成規則保證了全局唯一性,幾乎不可能有衝突,所以我們可以考慮去掉寫入時對“guid”的唯一性檢查,節省了一半時間。
  • 對於“qualifiedName”,根據業務的生成規則,也是“globalUnique”的,與“perTypeUnique”的性能差別幾乎是一倍:

優化實現效果

  • 去除 Atlas 中對於“guid”的唯一性的檢查。
  • 添加“Global_Unqiue”配置項,在類型定義時使用,在初始化時對“__qualifiedName”建立全局唯一索引。
  • 配合其他優化手段,對於超多屬性與關係的 Entity 寫入,耗時可以降低為分鐘級。

總結

  • 業務類系統的性能優化,通常會以解決某個具體的業務場景為目標,從介面入手,逐層解決
  • 性能優化基本遵循思路:發現問題->定位問題->解決問題->驗證效果->總結提升
  • 優先考慮“巧”辦法,“土”辦法,比如加機器改參數,不為了追求高大上而走彎路

立即跳轉火山引擎大數據研發治理套件 DataLeap 官網瞭解詳情!
歡迎關註位元組跳動數據平臺同名公眾號


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux軟體軟體安裝命令 sudo apt-get update//更新源,檢查更新 sudo apt-get upgrade; sudo apt-get dist-upgrade sudo apt-get install//從源中安裝軟體 sudo apt-get remove 刪除包 gnom ...
  • 為什麼要使用Vite 在瀏覽器中提供ES模塊之前,開發人員沒有以模塊化方式編寫JavaScript的本機機制。這就是為什麼我們都很熟悉“捆綁”的概念:使用工具來抓取、處理和連接源模塊到可以在瀏覽器中運行的文件中。 隨著時間的推移,我們看到了webpack、Rollup和Parcel等工具,它們極大地 ...
  • 英文原文:https://www.kernel.org/doc/html/latest/admin-guide/cgroup-v1/cpusets.html Copyright (C) 2004 BULL SA. Written by [email protected] Portions Cop ...
  • 一 、通過雲開發平臺快速創建初始化應用 1.創建相關應用模版請參考鏈接:基於Vue的極簡生成器 — Vuepress 2.完成創建後就可以在github中查看到新增的vuepress倉庫 二 、 本地編寫 Vue文檔風格的技術文檔/博客 1.將應用模版克隆到本地 首先假定你已經安裝了Git、node ...
  • 本文參考書:操作系統真像還原、電腦組成原理(微課版) 所謂記憶體管理包含: 物理記憶體 虛擬地址空間 以上就是記憶體管理中所要管理的資源。那麼記憶體管理的第一步就應該是整理出這兩種資源。 物理記憶體要分為兩部分: ①內核記憶體 ②用戶記憶體 在內核態下也經常會有一些記憶體申請,比如申請個pcb、頁表等等。內核態和 ...
  • 基本元器件原理及功能 常用元器件 CAP 電容 RES 電阻 CRYSTAL 晶振 7SEG 數位管 sounder 蜂鳴器 BUTTON LED-BIBY 發光二極體 二極體PN結,P陽極N陰極,電流方向P極流向N極 共陰極高電平亮,共陽極低電平亮 數位管 dp g f e d c b a 0 0 ...
  • 作為目前資料庫引擎的兩種主要數據結構,LSM-tree和B+-tree在業界已經有非常廣泛的研究。相比B+-tree,LSM-tree犧牲一定的讀性能以換取更小的寫放大以及更低的存儲成本,但這必須建立在已有的HDD和SSD的基礎上。 探索前沿研究,聚焦技術創新,本期DB·洞見由騰訊雲資料庫高級工程師 ...
  • 一般我安裝mysql用以下兩個方法: 一.phpstudy環境下的mysql安裝 只需將mysql的bin目錄配置到系統環境變數即可, 輸入預設密碼root即可登錄 二.本地直接安裝mysql資料庫 1.官網下載鏈接:https://dev.mysql.com/downloads/mysql/ 2. ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...