GaussDB(DWS)雲原生數倉技術解析

来源:https://www.cnblogs.com/huaweiyun/archive/2023/04/06/17292964.html
-Advertisement-
Play Games

摘要:本文主要介紹GaussDB(DWS)雲原生數倉架構、產品能力,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。 本文分享自華為雲社區《直播回顧 | GaussDB(DWS)雲原生數倉技術解析》,作者:胡辣湯。 在本期《GaussDB(DWS)雲原生數倉技術解析》的主題直播中 ...


摘要:本文主要介紹GaussDB(DWS)雲原生數倉架構、產品能力,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。

本文分享自華為雲社區《直播回顧 | GaussDB(DWS)雲原生數倉技術解析》,作者:胡辣湯。

在本期《GaussDB(DWS)雲原生數倉技術解析》的主題直播中,我們邀請到華為雲EI DTSE技術佈道師/華為雲數倉GaussDB(DWS)雲原生首席SE 王傳廷,針對GaussDB(DWS)雲原生數倉架構、產品能力,與開發者和伙伴朋友們展開交流互動,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。

數倉需求變化及技術架構演進

雲計算時代,數據倉庫的需求和技術架構也在不斷地發生變化。數倉需求主要分為兩類場景:

  • 公有雲場景,主要是指用戶直接購買的公有雲廠商的雲服務。公有雲用戶的需求更多關註在產品成本、擴容靈活彈性、數據共用。
  • 線下部署場景,這類場景可能是用戶購買的硬體部署了一個軟體,也可能是用戶在機房搭建了內部私有雲環境。線下部署場景主要需求是:系統穩定、負載之間有較好的隔離能力、數據共用、彈性。

數倉技術架構演進由最初Shared Storage共用存儲到Shared Nothing分散式計算架構再到現在的存算分離架構。

  • 存算分離架構特點:存儲類似shared storage,計算類似shared nothing,每個節點只處理自己分片的數據。
  • 存算分離架構優點:計算存儲分層擴展,計算節點擴容無需數據重分佈,速度快,靈活;存儲節點按需擴容,無限容量;計算節點之間無需協調機制,只需保證計算節點只處理自己分片的數據。

GaussDB(DWS)雲原生數倉架構解析

華為雲GaussDB(DWS)歷經12年技術演進,2011年開始技術預研,2014年首次上市,通過不停地迭代和演進,從2017年開始大規模商用,當前全球已累積1700+大客戶。針對數倉發展趨勢,GaussDB(DWS)也在不斷地演進,2022年推出實時數倉、IoT數倉,應對實時數據的接入,滿足實時計算場景需求。2023年即將發佈的雲原生數倉,支持存算管三層分離、湖倉一體、數智融合,具備優異性能和極致彈性能力。

GaussDB(DWS)雲原生數倉產品能力

一、極致彈性

GaussDB(DWS)雲原生數倉極致彈性,具備管理層、計算層、存儲層三層分離獨立靈活伸縮,一數多用、按需配置優勢。

存算管三層分離:存儲層,支持私有格式和開放格式,開放格式主要支持ORC/Parquet/Hudi等大數據生態的主流格式。私有格式是GaussDB(DWS)的存儲格式,數據存儲在OBS上,在私有格式上具備更好的性能。計算層,我們抽象了Virtual Warehouse概念(簡稱VW),也叫邏輯集群。VW是一組計算單元,可以靈活地添加或者釋放,數據不屬於任何一個VW,僅僅只是綁定關係。管理層是指將集群管理查詢優化與GaussDB(DWS)數據節點和GTM層體現出來。

一數多用:數據存儲在OBS上,任意邏輯集群均可承載讀寫負載,多邏輯集群間共用數據,無需拷貝,提供跨邏輯集群建的實時和近實時兩種數據共用方式。

按需配置:通過邏輯集群隔離不同業務,性能穩定,業務承載量或併發量線性擴展,可以進行讀寫分離或多讀多寫。

二、湖倉一體

之前使用大數據寫數據,需要創建外表,指定外表欄位,並與大數據欄位對應,需要訪問多少張表,就創建多少張表,當外表數量只有一兩張時維護也比較容易,外表越來越多時,維護成本也隨之增加,如果數據湖中欄位發生了變化,外表也需要更改。GaussDB(DWS)雲原生數倉在湖倉一體方面做了能力增強,降低維護成本。在這裡我們引入新的概念External Schema。我們通過創建一個 External Schema的形式,自動對接Hive Metastore元數據管理,直接訪問數據湖的數據表定義,不再需要創建外表,提升體驗,降低維護代價。

同時我們支持外表和內表進行融合查詢,混合查詢數據湖和數倉內任意數據,查詢一步到位輸出到數倉內/數據湖,無需額外數據中轉拷貝,數據湖享受數倉的極致查詢性能。

三、數智融合

打通數據倉庫與AI生產線,通過OBS共用開放格式數據,為AI生產線提供強勁的數據處理能力和靈活的供數方式。提供SQL語法,在數據分析過程中提供驅動AI訓練、應用AI推理的能力。直接調用部署的推理服務端點,靈活性好;將模型二進位部署為UDF,性能好。

四、優異性能

存算分離後,我們通過三個方面保證數倉性能,分別是:緩存、近數據計算(計算下推)、IO調度。

  • 緩存:將熱數據優先緩存到本地,本地磁碟緩存空間夠用的情況下,可以體驗到和本地表一樣的性能。GaussDB(DWS)在每個計算節點自帶磁碟緩存,可以將OBS的數據緩存到本地,提升性能。
  • 近數據計算:將冷數據優先計算下推到存儲層,降低讀取數據量。
  • IO調度:充分利用雲存儲帶寬優勢,彌補其相較傳統MPP的高延遲劣勢;單查詢充分利用資源,為併發查詢提供穩定、可預測的性能保證;多級資源池靈活配置。

歡迎感興趣的開發者觀看直播回放,瞭解詳細信息。更多關於GaussDB(DWS)產品技術解析、雲原生數倉產品新特性的介紹,請關註GaussDB(DWS)論壇,直播安排將第一時間發佈在GaussDB(DWS)論壇熱門活動版塊。

論壇鏈接:https://bbs.huaweicloud.com/forum/forum-598-1.html

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 作者:袁首京 原創文章,轉載時請保留此聲明,並給出原文連接。 技術人員多數又呆板又花心不長久。我知道你可能已經厭倦了 Docker,但是系統還沒有複雜到需要高攀 K8S 的地步。那我建議您,有空的話可以約一下 Podman。 Podman 使用起來是足夠簡單的,直接把它當做改了名字的 Docker ...
  • 1. HAVING子句的用法 1.1. 學習SQL時最大的阻礙就是我們已經習慣了的面向過程語言的思考方式(排序、迴圈、條件分支、賦值等) 1.2. 只有習慣了面向集合的思考方式,才能真正地學好它 1.3. 幫助我們順利地忘掉面向過程語言的思考方式並理解SQL面向集合特性的最為有效的方法 1.4. H ...
  • # 大數據開發基礎學習編程語言往往是我們開啟學習之路的第一大步。大數據領域的很多框架都是基於Java語言開發的,而且各種框架也都提供了Java API來提供使用和操作介面,所以Java語言的學習逃不掉。除此之外Scala在必要時也可以學一下,在大數據開發領域里用得還是挺多的。Scala語言的表達能力 ...
  • 數據管理技術的發展 第一節 資料庫技術發展概述 數據模型是資料庫系統的核心和基礎 以數據模型的發展為主線,資料庫技術可以相應地分為三個發展階段: 第一代的網狀、層次資料庫系統 第二代的關係資料庫系統 新一代的資料庫系統 一、第一代資料庫系統 層次資料庫系統 層次模型 網狀資料庫系統 網狀模型 層次模 ...
  • ORACLE資料庫中ORACLE_SID與INSTANCE_NAME在概念和意義上有什麼異同呢?下麵簡單來總結概況一下,很多時候,不少人都搞不清楚兩者的異同,甚至認為兩者是等價的。 ORACLE_SID與INSTANCE_NAME的異同 ORACLE_SID參數是操作系統的環境變數,用於和操作系統進 ...
  • 最近寫了幾個簡單的spark structured streaming 的代碼實例。 目的是熟悉spark 開發環境搭建, spark 代碼開發流程。 開發環境: 系統:win 11 java : 1.8 scala:2.13 工具:idea 2022.2 ,maven 3, git 2.37 sp ...
  • 在日常工作中,我們會遇見一些慢SQL,在分析這些慢SQL時,我們通常會看下SQL的執行計劃,驗證SQL執行過程中有沒有走索引。通常我們會調整一些查詢條件,增加必要的索引,SQL執行效率就會提升幾個數量級。我們有沒有思考過,為什麼加了索引就會能提高SQL的查詢效率,為什麼有時候加了索引SQL執行反而會... ...
  • navicat15安裝破解教程 一.navicati15安裝 參考教程 安裝包文件查找過程不再這裡贅述了,大家自行百度,相關經驗帖很多。 二. 破解 啟動破解工具,並點擊Patch 點擊後選擇我們安裝navicat的目錄 註意第二步的相關配置 點擊Generate生成key 打開navicat15, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...