探秘資料庫中的並行計算技術應用

来源:https://www.cnblogs.com/huaweiyun/p/18277496
-Advertisement-
Play Games

本文簡要說明瞭以Shared Nothing為代表的節點間並行處理技術,以及SMP節點內並行處理技術和它們在開源資料庫中的應用。 ...


本文分享自華為雲社區《【GaussTech技術專欄】資料庫中並行計算技術應用探秘》,作者:GaussDB資料庫。

並行計算是提高系統性能的重要手段之一。該技術是通過利用多台伺服器、多個處理器、處理器中的多核以及SIMD指令集等技術,實現任務的並行化處理,從而加快任務處理的速度。同時,在多個電腦領域有應用,如圖像處理、大數據處理、科學計算及資料庫等。

資料庫中的並行處理技術

1. 分散式並行處理架構

並行處理資料庫架構的出現可以追溯到上世紀80年代。當時電腦性能非常有限,但企業已經有了大規模的數據的處理需求。

那當時技術界是如何提升數據處理能力的呢?

當時技術界提出了三種並行架構:Shared Nothing、Shared Disk、Shared Memory,並對他們展開了各種討論。圖靈獎獲得者Michael Stonebraker在1985年發表的一篇關於Shared Nothing的文章《The Case for Shared Nothing》,從不同維度,對三種架構能力做了一些比較分析。由於在成本、擴展性、可用性方面的優勢,Shared Nothing成為主流的設計思路。

1)最早的Shared Nothing商業產品

最早的Shared Nothing數據處理系統是1984年Teradata公司發佈的第一代產品DBC/1012。

1.PNG

圖1 DBC/1012架構

DBC/1012的系統架構的關鍵組件有:

DBC/1012一開始作為大型機IBM 370的後端,後來也可用作其他各種大型機、小型電腦和工作站的後端。數據被演算法平均劃分到AMP管理的本地Disk,AMP之間通常不交換數據。可通過增加AMP的數量來提升整個系統的數據容量和性能。

雖然現在看來滿滿的歷史感,但是當時藉助Shared Nothing技術處理大數據時,Teradata表現得非常好,因此也贏得了優質大客戶,幫助Teradata取得商業上的成功。

2)MPP(Massively Parallel Processing)和shared-nothing

資料庫並行處理技術中經常會提到的MPP(Massively Parallel Processing),通常指的是伺服器的系統架構分類方法。除了MPP之外,還有NUMA、SMP這兩個分類。

  • SMP(Symmetric MultiProcessing):對稱多處理器結構

SMP伺服器的主要特征是共用。系統中的所有資源(如記憶體、I/O等)都是共用的,擴展能力比較有限。

SMP有時也被稱為一致存儲器訪問(UMA)結構體系,記憶體被所有處理機均勻共用。和NUMA不同,SMP所有處理器對所有記憶體具有相同的訪問時間。

2.PNG

圖2 SMP示意

  • NUMA(Non-Uniform Memory Architecture):非一致存儲訪問結構

NUMA伺服器的主要特征是擁有多個CPU模塊,模塊之間可以通過互聯模塊連接和信息交互。

每個CPU可以訪問整個系統的記憶體,但是訪問速度不一樣。CPU訪問本地記憶體的速度遠遠高於系統內其他節點的記憶體速度。

NUMA和MPP的區別在於,NUMA是一臺物理伺服器,而MPP是多台。

3.PNG

圖3 NUMA示意

  • MPP(Massively Parallel Processing):大規模並行處理結構

MPP是多台伺服器節點通過互聯網路連接起來,各個伺服器節點只訪問本地資源(記憶體和存儲),各個伺服器之間shared nothing。

在資料庫領域里,當我們說起一個資料庫是MPPDB,是指在數據的設計實現上,利用MPP並行處理的伺服器集群scale-out擴展資料庫性能,伺服器之間Shared Nothing。可以理解為MPPDB == Shared Nothing資料庫。

當前支持MPP架構資料庫產品有很多,如:Netezza(基於PG;IBM收購後不活躍)、Greenplum(基於PG;VMware)、Vertica(HP)、Sybase IQ(SAP)、TD Aster Data(Teradata)、Doris(百度)、Clickhouse(Clickhouse, Inc.)、GaussDB(華為)、SeaboxMPP(東方金信)等。

2. SMP並行

One size does not fit all。Shared Nothing並行技術做到了很好的水平橫向擴展(scale-out),但隨著單台物理伺服器的硬體資源越來越強大(幾十~上百個core/伺服器),僅僅採用Shared Nothing技術,不能很好地挖掘硬體潛力。因為組成Shared Nothing架構資料庫的單機很多都是SMP架構,即使是NUMA架構,其實每個NUMA域也可以近似認為是一個SMP系統。因此,業界又做了SMP並行執行的工作,提升單機上縱向擴展(scale-up)能力,優化處理性能。

SMP並行技術可通過多線程多子任務並行執行的機制實現系統計算資源的充分高效使用,如下圖所示:

4.PNG

3. 其他並行技術

SMP進一步提升了資料庫節點內並行處理的能力,但是資料庫節點的處理晶元的處理性能仍可以進一步壓榨,比如ARM和x86處理器往往都配備了SIMD指令集,提升了一條指令可以處理的數據的位寬。篇幅原因,這些並行技術會在後續GaussTech系列文章中闡述,這裡不再贅述。

開源資料庫中的並行技術應用

當前流行的開源資料庫有兩款:MySQL和PostgreSQL。讓我們來看一下這兩款開源資料庫系列中Shared Nothing和SMP技術的運用吧。

1. Shared Nothing

MySQL搭建Shared Nothing資料庫集群主要靠藉助各廠商自研或者開源的中間件,結合MySQL資料庫提供分散式並行處理能力。比如:GoldenDB、TDSQL-MySQL等。MySQL官方也提供了MySQL NDB Cluster,可藉助其搭建分散式集群。

PostgreSQL也是類似的思路,比如:TDSQL- PostgreSQL以及PostgreSQL生態圈流行的開源中間件Postgres-XL、Postgres-XC、citus等。

可以看到,MySQL以及PostgreSQL系提供Shared Nothing能力的主要是中間件架構的分散式資料庫。

5.PNG

雖然這類資料庫能橫向擴展數據處理能力,但也存在功能降級、全局事務能力和高可用、性能等方面存在短板,需要有針對性增強。

2. SMP並行技術

MySQL在2019年發佈的8.0.14版本中第一次引入了並行查詢特性,對於一條SQL語句,也能發揮主機CPU多核能力,改善複雜大查詢的能力。

並行處理能力主要是由存儲引擎InnoDB提供的:

(1) innodb_parallel_read_threads :配置用於並行掃描的最大線程數。 (2) innodb_ddl_threads :控制 InnoDB 創建(排序和構建)二級索引的最大並行線程數。

PostgreSQL從2016年發佈的9.6開始支持並行順序掃描、聚合,在2018年發佈的11支持了更多的並行運算元:並行哈希連接、Append、創建索引等。

PostgreSQL提供了一些參數來進行並行的控制,比如max_parallel_workers_per_gather。當優化器預判並行執行成本較高時,也不會生成並行執行計劃。

可以看到,作為開源資料庫中的翹楚,PostgreSQL和MySQL都應用了SMP線程級並行處理技術提升資料庫的單節點處理性能。

總結

並行計算技術作為提升資料庫處理性能的重要手段,在現有的資料庫產品中得到了廣泛的應用。本文簡要說明瞭以Shared Nothing為代表的節點間並行處理技術,以及SMP節點內並行處理技術和它們在開源資料庫中的應用。

GaussDB作為企業級資料庫,也使用了這兩項技術,提升了資料庫處理的性能。相較於開源資料庫的實現,GaussDB的實現方式,結合各類實際場景,添加了更多的特色實現,進一步提升了分散式處理性能,這些我們將於下一篇文章加以說明。

點擊關註,第一時間瞭解華為雲新鮮技術~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄操作系統,啟動!大致過程重要程式bootsect.ssetup.shead.s 操作系統,啟動! 大致過程 ​ 電腦的工作方式是取指執行,而執行其的前提是記憶體中有代碼。操作系統剛開始並不是在記憶體中,而是在磁碟上,因此第一步需要將其以一定的方式從磁碟讀入記憶體。 (1)x86PC剛開機時CPU處於 ...
  • 在 CentOS 上安裝 Git 可以通過以下幾個步驟來完成: 1. 使用 YUM 安裝 Git(一般這種情況已經可以滿足) 這是最簡單的方法,使用 CentOS 自帶的 YUM 包管理器。 更新 YUM 包索引: sudo yum update 安裝 Git: sudo yum install g ...
  • 表格示意: 標準 邏輯電平0 邏輯電平1 是否全雙工 抗干擾能力 TTL 輸出低電平<0.4V, 輸入低電平<=0.8V 輸出高電平>2.4V,輸入高電平>=2.0V 全雙工 差 RS232 +3~+15V -3~-15V 全雙工 強 RS485 +2V~+6V - 6V~- 2V 半雙工 很強 電 ...
  • 寫這個方法是因為需要向一臺沒有外網的伺服器上安裝gcc,各種百度找到了相關依賴、依賴的依賴。。。。。。的rpm包,林林總總近100個rpm,拷貝到目標伺服器上安裝的時候發現這些rpm包的安裝順序完全靠猜測,安裝就報:有依賴需要提前安裝。這時候感謝百度大模型文心一言的幫助,找到了可以使用本地倉庫來管理 ...
  • 切換分支的時候,需要更新所有的子模塊,可以編寫 Shell 代碼簡化這一過程。 本教程適用於 mac 系統,終端使用 zsh。 ...
  • 在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。 上 ...
  • 問題 最近碰到一個 case,一臺主機上,部署了多個實例。之前使用的是 MySQL 8.0,啟動時沒有任何問題。但升級到 MySQL 8.4 後,部分實例在啟動時出現了以下錯誤。 [Warning] [MY-012582] [InnoDB] io_setup() failed with EAGAIN ...
  • PROFILE 姓名:程鑫 公司:阿裡雲 職位:開發工程師 Github ID: rickchengx 從事領域:大數據調度系統開發 興趣愛好:健身 推舉理由 他於2022年8月2日開始了他的DolphinScheduler之旅,在社區工作了將近兩年,並於2023年5月12日成為Committer。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...