探秘資料庫中的並行計算技術應用

来源:https://www.cnblogs.com/huaweiyun/p/18277496
-Advertisement-
Play Games

本文簡要說明瞭以Shared Nothing為代表的節點間並行處理技術,以及SMP節點內並行處理技術和它們在開源資料庫中的應用。 ...


本文分享自華為雲社區《【GaussTech技術專欄】資料庫中並行計算技術應用探秘》,作者:GaussDB資料庫。

並行計算是提高系統性能的重要手段之一。該技術是通過利用多台伺服器、多個處理器、處理器中的多核以及SIMD指令集等技術,實現任務的並行化處理,從而加快任務處理的速度。同時,在多個電腦領域有應用,如圖像處理、大數據處理、科學計算及資料庫等。

資料庫中的並行處理技術

1. 分散式並行處理架構

並行處理資料庫架構的出現可以追溯到上世紀80年代。當時電腦性能非常有限,但企業已經有了大規模的數據的處理需求。

那當時技術界是如何提升數據處理能力的呢?

當時技術界提出了三種並行架構:Shared Nothing、Shared Disk、Shared Memory,並對他們展開了各種討論。圖靈獎獲得者Michael Stonebraker在1985年發表的一篇關於Shared Nothing的文章《The Case for Shared Nothing》,從不同維度,對三種架構能力做了一些比較分析。由於在成本、擴展性、可用性方面的優勢,Shared Nothing成為主流的設計思路。

1)最早的Shared Nothing商業產品

最早的Shared Nothing數據處理系統是1984年Teradata公司發佈的第一代產品DBC/1012。

1.PNG

圖1 DBC/1012架構

DBC/1012的系統架構的關鍵組件有:

DBC/1012一開始作為大型機IBM 370的後端,後來也可用作其他各種大型機、小型電腦和工作站的後端。數據被演算法平均劃分到AMP管理的本地Disk,AMP之間通常不交換數據。可通過增加AMP的數量來提升整個系統的數據容量和性能。

雖然現在看來滿滿的歷史感,但是當時藉助Shared Nothing技術處理大數據時,Teradata表現得非常好,因此也贏得了優質大客戶,幫助Teradata取得商業上的成功。

2)MPP(Massively Parallel Processing)和shared-nothing

資料庫並行處理技術中經常會提到的MPP(Massively Parallel Processing),通常指的是伺服器的系統架構分類方法。除了MPP之外,還有NUMA、SMP這兩個分類。

  • SMP(Symmetric MultiProcessing):對稱多處理器結構

SMP伺服器的主要特征是共用。系統中的所有資源(如記憶體、I/O等)都是共用的,擴展能力比較有限。

SMP有時也被稱為一致存儲器訪問(UMA)結構體系,記憶體被所有處理機均勻共用。和NUMA不同,SMP所有處理器對所有記憶體具有相同的訪問時間。

2.PNG

圖2 SMP示意

  • NUMA(Non-Uniform Memory Architecture):非一致存儲訪問結構

NUMA伺服器的主要特征是擁有多個CPU模塊,模塊之間可以通過互聯模塊連接和信息交互。

每個CPU可以訪問整個系統的記憶體,但是訪問速度不一樣。CPU訪問本地記憶體的速度遠遠高於系統內其他節點的記憶體速度。

NUMA和MPP的區別在於,NUMA是一臺物理伺服器,而MPP是多台。

3.PNG

圖3 NUMA示意

  • MPP(Massively Parallel Processing):大規模並行處理結構

MPP是多台伺服器節點通過互聯網路連接起來,各個伺服器節點只訪問本地資源(記憶體和存儲),各個伺服器之間shared nothing。

在資料庫領域里,當我們說起一個資料庫是MPPDB,是指在數據的設計實現上,利用MPP並行處理的伺服器集群scale-out擴展資料庫性能,伺服器之間Shared Nothing。可以理解為MPPDB == Shared Nothing資料庫。

當前支持MPP架構資料庫產品有很多,如:Netezza(基於PG;IBM收購後不活躍)、Greenplum(基於PG;VMware)、Vertica(HP)、Sybase IQ(SAP)、TD Aster Data(Teradata)、Doris(百度)、Clickhouse(Clickhouse, Inc.)、GaussDB(華為)、SeaboxMPP(東方金信)等。

2. SMP並行

One size does not fit all。Shared Nothing並行技術做到了很好的水平橫向擴展(scale-out),但隨著單台物理伺服器的硬體資源越來越強大(幾十~上百個core/伺服器),僅僅採用Shared Nothing技術,不能很好地挖掘硬體潛力。因為組成Shared Nothing架構資料庫的單機很多都是SMP架構,即使是NUMA架構,其實每個NUMA域也可以近似認為是一個SMP系統。因此,業界又做了SMP並行執行的工作,提升單機上縱向擴展(scale-up)能力,優化處理性能。

SMP並行技術可通過多線程多子任務並行執行的機制實現系統計算資源的充分高效使用,如下圖所示:

4.PNG

3. 其他並行技術

SMP進一步提升了資料庫節點內並行處理的能力,但是資料庫節點的處理晶元的處理性能仍可以進一步壓榨,比如ARM和x86處理器往往都配備了SIMD指令集,提升了一條指令可以處理的數據的位寬。篇幅原因,這些並行技術會在後續GaussTech系列文章中闡述,這裡不再贅述。

開源資料庫中的並行技術應用

當前流行的開源資料庫有兩款:MySQL和PostgreSQL。讓我們來看一下這兩款開源資料庫系列中Shared Nothing和SMP技術的運用吧。

1. Shared Nothing

MySQL搭建Shared Nothing資料庫集群主要靠藉助各廠商自研或者開源的中間件,結合MySQL資料庫提供分散式並行處理能力。比如:GoldenDB、TDSQL-MySQL等。MySQL官方也提供了MySQL NDB Cluster,可藉助其搭建分散式集群。

PostgreSQL也是類似的思路,比如:TDSQL- PostgreSQL以及PostgreSQL生態圈流行的開源中間件Postgres-XL、Postgres-XC、citus等。

可以看到,MySQL以及PostgreSQL系提供Shared Nothing能力的主要是中間件架構的分散式資料庫。

5.PNG

雖然這類資料庫能橫向擴展數據處理能力,但也存在功能降級、全局事務能力和高可用、性能等方面存在短板,需要有針對性增強。

2. SMP並行技術

MySQL在2019年發佈的8.0.14版本中第一次引入了並行查詢特性,對於一條SQL語句,也能發揮主機CPU多核能力,改善複雜大查詢的能力。

並行處理能力主要是由存儲引擎InnoDB提供的:

(1) innodb_parallel_read_threads :配置用於並行掃描的最大線程數。 (2) innodb_ddl_threads :控制 InnoDB 創建(排序和構建)二級索引的最大並行線程數。

PostgreSQL從2016年發佈的9.6開始支持並行順序掃描、聚合,在2018年發佈的11支持了更多的並行運算元:並行哈希連接、Append、創建索引等。

PostgreSQL提供了一些參數來進行並行的控制,比如max_parallel_workers_per_gather。當優化器預判並行執行成本較高時,也不會生成並行執行計劃。

可以看到,作為開源資料庫中的翹楚,PostgreSQL和MySQL都應用了SMP線程級並行處理技術提升資料庫的單節點處理性能。

總結

並行計算技術作為提升資料庫處理性能的重要手段,在現有的資料庫產品中得到了廣泛的應用。本文簡要說明瞭以Shared Nothing為代表的節點間並行處理技術,以及SMP節點內並行處理技術和它們在開源資料庫中的應用。

GaussDB作為企業級資料庫,也使用了這兩項技術,提升了資料庫處理的性能。相較於開源資料庫的實現,GaussDB的實現方式,結合各類實際場景,添加了更多的特色實現,進一步提升了分散式處理性能,這些我們將於下一篇文章加以說明。

點擊關註,第一時間瞭解華為雲新鮮技術~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄操作系統,啟動!大致過程重要程式bootsect.ssetup.shead.s 操作系統,啟動! 大致過程 ​ 電腦的工作方式是取指執行,而執行其的前提是記憶體中有代碼。操作系統剛開始並不是在記憶體中,而是在磁碟上,因此第一步需要將其以一定的方式從磁碟讀入記憶體。 (1)x86PC剛開機時CPU處於 ...
  • 在 CentOS 上安裝 Git 可以通過以下幾個步驟來完成: 1. 使用 YUM 安裝 Git(一般這種情況已經可以滿足) 這是最簡單的方法,使用 CentOS 自帶的 YUM 包管理器。 更新 YUM 包索引: sudo yum update 安裝 Git: sudo yum install g ...
  • 表格示意: 標準 邏輯電平0 邏輯電平1 是否全雙工 抗干擾能力 TTL 輸出低電平<0.4V, 輸入低電平<=0.8V 輸出高電平>2.4V,輸入高電平>=2.0V 全雙工 差 RS232 +3~+15V -3~-15V 全雙工 強 RS485 +2V~+6V - 6V~- 2V 半雙工 很強 電 ...
  • 寫這個方法是因為需要向一臺沒有外網的伺服器上安裝gcc,各種百度找到了相關依賴、依賴的依賴。。。。。。的rpm包,林林總總近100個rpm,拷貝到目標伺服器上安裝的時候發現這些rpm包的安裝順序完全靠猜測,安裝就報:有依賴需要提前安裝。這時候感謝百度大模型文心一言的幫助,找到了可以使用本地倉庫來管理 ...
  • 切換分支的時候,需要更新所有的子模塊,可以編寫 Shell 代碼簡化這一過程。 本教程適用於 mac 系統,終端使用 zsh。 ...
  • 在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。 上 ...
  • 問題 最近碰到一個 case,一臺主機上,部署了多個實例。之前使用的是 MySQL 8.0,啟動時沒有任何問題。但升級到 MySQL 8.4 後,部分實例在啟動時出現了以下錯誤。 [Warning] [MY-012582] [InnoDB] io_setup() failed with EAGAIN ...
  • PROFILE 姓名:程鑫 公司:阿裡雲 職位:開發工程師 Github ID: rickchengx 從事領域:大數據調度系統開發 興趣愛好:健身 推舉理由 他於2022年8月2日開始了他的DolphinScheduler之旅,在社區工作了將近兩年,並於2023年5月12日成為Committer。 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...