摘要:本文主要介紹GaussDB(DWS)雲原生數倉架構、產品能力,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。 本文分享自華為雲社區《直播回顧 | GaussDB(DWS)雲原生數倉技術解析》,作者:胡辣湯。 在本期《GaussDB(DWS)雲原生數倉技術解析》的主題直播中 ...
摘要:本文主要介紹GaussDB(DWS)雲原生數倉架構、產品能力,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。
本文分享自華為雲社區《直播回顧 | GaussDB(DWS)雲原生數倉技術解析》,作者:胡辣湯。
在本期《GaussDB(DWS)雲原生數倉技術解析》的主題直播中,我們邀請到華為雲EI DTSE技術佈道師/華為雲數倉GaussDB(DWS)雲原生首席SE 王傳廷,針對GaussDB(DWS)雲原生數倉架構、產品能力,與開發者和伙伴朋友們展開交流互動,幫助開發者快速瞭解GaussDB(DWS)雲原生數倉相關信息與能力。
數倉需求變化及技術架構演進
雲計算時代,數據倉庫的需求和技術架構也在不斷地發生變化。數倉需求主要分為兩類場景:
- 公有雲場景,主要是指用戶直接購買的公有雲廠商的雲服務。公有雲用戶的需求更多關註在產品成本、擴容靈活彈性、數據共用。
- 線下部署場景,這類場景可能是用戶購買的硬體部署了一個軟體,也可能是用戶在機房搭建了內部私有雲環境。線下部署場景主要需求是:系統穩定、負載之間有較好的隔離能力、數據共用、彈性。
數倉技術架構演進由最初Shared Storage共用存儲到Shared Nothing分散式計算架構再到現在的存算分離架構。
- 存算分離架構特點:存儲類似shared storage,計算類似shared nothing,每個節點只處理自己分片的數據。
- 存算分離架構優點:計算存儲分層擴展,計算節點擴容無需數據重分佈,速度快,靈活;存儲節點按需擴容,無限容量;計算節點之間無需協調機制,只需保證計算節點只處理自己分片的數據。
GaussDB(DWS)雲原生數倉架構解析
華為雲GaussDB(DWS)歷經12年技術演進,2011年開始技術預研,2014年首次上市,通過不停地迭代和演進,從2017年開始大規模商用,當前全球已累積1700+大客戶。針對數倉發展趨勢,GaussDB(DWS)也在不斷地演進,2022年推出實時數倉、IoT數倉,應對實時數據的接入,滿足實時計算場景需求。2023年即將發佈的雲原生數倉,支持存算管三層分離、湖倉一體、數智融合,具備優異性能和極致彈性能力。
GaussDB(DWS)雲原生數倉產品能力
一、極致彈性
GaussDB(DWS)雲原生數倉極致彈性,具備管理層、計算層、存儲層三層分離獨立靈活伸縮,一數多用、按需配置優勢。
存算管三層分離:存儲層,支持私有格式和開放格式,開放格式主要支持ORC/Parquet/Hudi等大數據生態的主流格式。私有格式是GaussDB(DWS)的存儲格式,數據存儲在OBS上,在私有格式上具備更好的性能。計算層,我們抽象了Virtual Warehouse概念(簡稱VW),也叫邏輯集群。VW是一組計算單元,可以靈活地添加或者釋放,數據不屬於任何一個VW,僅僅只是綁定關係。管理層是指將集群管理查詢優化與GaussDB(DWS)數據節點和GTM層體現出來。
一數多用:數據存儲在OBS上,任意邏輯集群均可承載讀寫負載,多邏輯集群間共用數據,無需拷貝,提供跨邏輯集群建的實時和近實時兩種數據共用方式。
按需配置:通過邏輯集群隔離不同業務,性能穩定,業務承載量或併發量線性擴展,可以進行讀寫分離或多讀多寫。
二、湖倉一體
之前使用大數據寫數據,需要創建外表,指定外表欄位,並與大數據欄位對應,需要訪問多少張表,就創建多少張表,當外表數量只有一兩張時維護也比較容易,外表越來越多時,維護成本也隨之增加,如果數據湖中欄位發生了變化,外表也需要更改。GaussDB(DWS)雲原生數倉在湖倉一體方面做了能力增強,降低維護成本。在這裡我們引入新的概念External Schema。我們通過創建一個 External Schema的形式,自動對接Hive Metastore元數據管理,直接訪問數據湖的數據表定義,不再需要創建外表,提升體驗,降低維護代價。
同時我們支持外表和內表進行融合查詢,混合查詢數據湖和數倉內任意數據,查詢一步到位輸出到數倉內/數據湖,無需額外數據中轉拷貝,數據湖享受數倉的極致查詢性能。
三、數智融合
打通數據倉庫與AI生產線,通過OBS共用開放格式數據,為AI生產線提供強勁的數據處理能力和靈活的供數方式。提供SQL語法,在數據分析過程中提供驅動AI訓練、應用AI推理的能力。直接調用部署的推理服務端點,靈活性好;將模型二進位部署為UDF,性能好。
四、優異性能
存算分離後,我們通過三個方面保證數倉性能,分別是:緩存、近數據計算(計算下推)、IO調度。
- 緩存:將熱數據優先緩存到本地,本地磁碟緩存空間夠用的情況下,可以體驗到和本地表一樣的性能。GaussDB(DWS)在每個計算節點自帶磁碟緩存,可以將OBS的數據緩存到本地,提升性能。
- 近數據計算:將冷數據優先計算下推到存儲層,降低讀取數據量。
- IO調度:充分利用雲存儲帶寬優勢,彌補其相較傳統MPP的高延遲劣勢;單查詢充分利用資源,為併發查詢提供穩定、可預測的性能保證;多級資源池靈活配置。
歡迎感興趣的開發者觀看直播回放,瞭解詳細信息。更多關於GaussDB(DWS)產品技術解析、雲原生數倉產品新特性的介紹,請關註GaussDB(DWS)論壇,直播安排將第一時間發佈在GaussDB(DWS)論壇熱門活動版塊。
論壇鏈接:https://bbs.huaweicloud.com/forum/forum-598-1.html