GaussDB(DWS)雲原生數倉技術解析

来源:https://www.cnblogs.com/huaweiyun/archive/2023/04/06/17292964.html
-Advertisement-
Play Games

摘要:本文主要介紹GaussDB(DWS)雲原生數倉架構、產品能力,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。 本文分享自華為雲社區《直播回顧 | GaussDB(DWS)雲原生數倉技術解析》,作者:胡辣湯。 在本期《GaussDB(DWS)雲原生數倉技術解析》的主題直播中 ...


摘要:本文主要介紹GaussDB(DWS)雲原生數倉架構、產品能力,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。

本文分享自華為雲社區《直播回顧 | GaussDB(DWS)雲原生數倉技術解析》,作者:胡辣湯。

在本期《GaussDB(DWS)雲原生數倉技術解析》的主題直播中,我們邀請到華為雲EI DTSE技術佈道師/華為雲數倉GaussDB(DWS)雲原生首席SE 王傳廷,針對GaussDB(DWS)雲原生數倉架構、產品能力,與開發者和伙伴朋友們展開交流互動,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。

數倉需求變化及技術架構演進

雲計算時代,數據倉庫的需求和技術架構也在不斷地發生變化。數倉需求主要分為兩類場景:

  • 公有雲場景,主要是指用戶直接購買的公有雲廠商的雲服務。公有雲用戶的需求更多關註在產品成本、擴容靈活彈性、數據共用。
  • 線下部署場景,這類場景可能是用戶購買的硬體部署了一個軟體,也可能是用戶在機房搭建了內部私有雲環境。線下部署場景主要需求是:系統穩定、負載之間有較好的隔離能力、數據共用、彈性。

數倉技術架構演進由最初Shared Storage共用存儲到Shared Nothing分散式計算架構再到現在的存算分離架構。

  • 存算分離架構特點:存儲類似shared storage,計算類似shared nothing,每個節點只處理自己分片的數據。
  • 存算分離架構優點:計算存儲分層擴展,計算節點擴容無需數據重分佈,速度快,靈活;存儲節點按需擴容,無限容量;計算節點之間無需協調機制,只需保證計算節點只處理自己分片的數據。

GaussDB(DWS)雲原生數倉架構解析

華為雲GaussDB(DWS)歷經12年技術演進,2011年開始技術預研,2014年首次上市,通過不停地迭代和演進,從2017年開始大規模商用,當前全球已累積1700+大客戶。針對數倉發展趨勢,GaussDB(DWS)也在不斷地演進,2022年推出實時數倉、IoT數倉,應對實時數據的接入,滿足實時計算場景需求。2023年即將發佈的雲原生數倉,支持存算管三層分離、湖倉一體、數智融合,具備優異性能和極致彈性能力。

GaussDB(DWS)雲原生數倉產品能力

一、極致彈性

GaussDB(DWS)雲原生數倉極致彈性,具備管理層、計算層、存儲層三層分離獨立靈活伸縮,一數多用、按需配置優勢。

存算管三層分離:存儲層,支持私有格式和開放格式,開放格式主要支持ORC/Parquet/Hudi等大數據生態的主流格式。私有格式是GaussDB(DWS)的存儲格式,數據存儲在OBS上,在私有格式上具備更好的性能。計算層,我們抽象了Virtual Warehouse概念(簡稱VW),也叫邏輯集群。VW是一組計算單元,可以靈活地添加或者釋放,數據不屬於任何一個VW,僅僅只是綁定關係。管理層是指將集群管理查詢優化與GaussDB(DWS)數據節點和GTM層體現出來。

一數多用:數據存儲在OBS上,任意邏輯集群均可承載讀寫負載,多邏輯集群間共用數據,無需拷貝,提供跨邏輯集群建的實時和近實時兩種數據共用方式。

按需配置:通過邏輯集群隔離不同業務,性能穩定,業務承載量或併發量線性擴展,可以進行讀寫分離或多讀多寫。

二、湖倉一體

之前使用大數據寫數據,需要創建外表,指定外表欄位,並與大數據欄位對應,需要訪問多少張表,就創建多少張表,當外表數量只有一兩張時維護也比較容易,外表越來越多時,維護成本也隨之增加,如果數據湖中欄位發生了變化,外表也需要更改。GaussDB(DWS)雲原生數倉在湖倉一體方面做了能力增強,降低維護成本。在這裡我們引入新的概念External Schema。我們通過創建一個 External Schema的形式,自動對接Hive Metastore元數據管理,直接訪問數據湖的數據表定義,不再需要創建外表,提升體驗,降低維護代價。

同時我們支持外表和內表進行融合查詢,混合查詢數據湖和數倉內任意數據,查詢一步到位輸出到數倉內/數據湖,無需額外數據中轉拷貝,數據湖享受數倉的極致查詢性能。

三、數智融合

打通數據倉庫與AI生產線,通過OBS共用開放格式數據,為AI生產線提供強勁的數據處理能力和靈活的供數方式。提供SQL語法,在數據分析過程中提供驅動AI訓練、應用AI推理的能力。直接調用部署的推理服務端點,靈活性好;將模型二進位部署為UDF,性能好。

四、優異性能

存算分離後,我們通過三個方面保證數倉性能,分別是:緩存、近數據計算(計算下推)、IO調度。

  • 緩存:將熱數據優先緩存到本地,本地磁碟緩存空間夠用的情況下,可以體驗到和本地表一樣的性能。GaussDB(DWS)在每個計算節點自帶磁碟緩存,可以將OBS的數據緩存到本地,提升性能。
  • 近數據計算:將冷數據優先計算下推到存儲層,降低讀取數據量。
  • IO調度:充分利用雲存儲帶寬優勢,彌補其相較傳統MPP的高延遲劣勢;單查詢充分利用資源,為併發查詢提供穩定、可預測的性能保證;多級資源池靈活配置。

歡迎感興趣的開發者觀看直播回放,瞭解詳細信息。更多關於GaussDB(DWS)產品技術解析、雲原生數倉產品新特性的介紹,請關註GaussDB(DWS)論壇,直播安排將第一時間發佈在GaussDB(DWS)論壇熱門活動版塊。

論壇鏈接:https://bbs.huaweicloud.com/forum/forum-598-1.html

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 作者:袁首京 原創文章,轉載時請保留此聲明,並給出原文連接。 技術人員多數又呆板又花心不長久。我知道你可能已經厭倦了 Docker,但是系統還沒有複雜到需要高攀 K8S 的地步。那我建議您,有空的話可以約一下 Podman。 Podman 使用起來是足夠簡單的,直接把它當做改了名字的 Docker ...
  • 1. HAVING子句的用法 1.1. 學習SQL時最大的阻礙就是我們已經習慣了的面向過程語言的思考方式(排序、迴圈、條件分支、賦值等) 1.2. 只有習慣了面向集合的思考方式,才能真正地學好它 1.3. 幫助我們順利地忘掉面向過程語言的思考方式並理解SQL面向集合特性的最為有效的方法 1.4. H ...
  • # 大數據開發基礎學習編程語言往往是我們開啟學習之路的第一大步。大數據領域的很多框架都是基於Java語言開發的,而且各種框架也都提供了Java API來提供使用和操作介面,所以Java語言的學習逃不掉。除此之外Scala在必要時也可以學一下,在大數據開發領域里用得還是挺多的。Scala語言的表達能力 ...
  • 數據管理技術的發展 第一節 資料庫技術發展概述 數據模型是資料庫系統的核心和基礎 以數據模型的發展為主線,資料庫技術可以相應地分為三個發展階段: 第一代的網狀、層次資料庫系統 第二代的關係資料庫系統 新一代的資料庫系統 一、第一代資料庫系統 層次資料庫系統 層次模型 網狀資料庫系統 網狀模型 層次模 ...
  • ORACLE資料庫中ORACLE_SID與INSTANCE_NAME在概念和意義上有什麼異同呢?下麵簡單來總結概況一下,很多時候,不少人都搞不清楚兩者的異同,甚至認為兩者是等價的。 ORACLE_SID與INSTANCE_NAME的異同 ORACLE_SID參數是操作系統的環境變數,用於和操作系統進 ...
  • 最近寫了幾個簡單的spark structured streaming 的代碼實例。 目的是熟悉spark 開發環境搭建, spark 代碼開發流程。 開發環境: 系統:win 11 java : 1.8 scala:2.13 工具:idea 2022.2 ,maven 3, git 2.37 sp ...
  • 在日常工作中,我們會遇見一些慢SQL,在分析這些慢SQL時,我們通常會看下SQL的執行計劃,驗證SQL執行過程中有沒有走索引。通常我們會調整一些查詢條件,增加必要的索引,SQL執行效率就會提升幾個數量級。我們有沒有思考過,為什麼加了索引就會能提高SQL的查詢效率,為什麼有時候加了索引SQL執行反而會... ...
  • navicat15安裝破解教程 一.navicati15安裝 參考教程 安裝包文件查找過程不再這裡贅述了,大家自行百度,相關經驗帖很多。 二. 破解 啟動破解工具,並點擊Patch 點擊後選擇我們安裝navicat的目錄 註意第二步的相關配置 點擊Generate生成key 打開navicat15, ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...