從GaussDB(DWS)的技術演進,看數據倉庫的積澱與新生

来源:https://www.cnblogs.com/huaweiyun/archive/2023/07/05/17527950.html
-Advertisement-
Play Games

摘要:隨著雲計算的興起和滲透,雲數倉成為了數倉技術演進的新階段,並且逐漸成為了眾多企業的共同選擇。 本文分享自華為雲社區《從GaussDB(DWS)的技術演進,看數據倉庫的積澱與新生》,作者: 華為雲頭條。 數據驅動著現代商業的發展 今天,無論在製造、零售、物流 還是在互聯網、金融等行業 數據都變得 ...


摘要:隨著雲計算的興起和滲透,雲數倉成為了數倉技術演進的新階段,並且逐漸成為了眾多企業的共同選擇。

本文分享自華為雲社區《從GaussDB(DWS)的技術演進,看數據倉庫的積澱與新生》,作者: 華為雲頭條。

數據驅動著現代商業的發展

今天,無論在製造、零售、物流

還是在互聯網、金融等行業

數據都變得比以往任何時候更為重要

海量且多樣的數據浪潮對數據處理和分析提出了更高的要求,也使得數據倉庫走向了多元化的發展之路,傳統數倉、數據集市、實時數倉等相繼誕生。此外,隨著雲計算的興起和滲透,雲數倉成為了數倉技術演進的新階段,並且逐漸成為了眾多企業的共同選擇。

▶與時俱進的“數據倉庫”

“數據倉庫”的概念並非近些年才出現,關於它的起源,眾說紛紜:

  • 有一種說法指出“數據倉庫”的概念最早可以追溯到上世紀60年代,當時的數據主要是手工處理的紙質文檔和統計報表;
  • 80年代中後期,隨著電腦技術和資料庫技術的飛速發展,數據倉庫開始逐漸成為企業級分析的重要工具;
  • 直到90年代 Bill Inmon 推出《建立數據倉庫》,正式定義了數據倉庫的概念——數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合;
  • 進入21世紀後,數據倉庫開始與大數據、數據挖掘、機器學習、雲計算等技術的相結合,走上了集成發展之路。

隨著技術的不斷發展和產業實踐的深入,數據倉庫逐漸成為了企業信息管理中不可或缺的部分。在實際應用中,數據倉庫已經被廣泛應用於各個領域,如客戶關係管理、商業智能、金融風險評估等。例如:

  • 在客戶關係管理方面,數據倉庫可以幫助企業更好地瞭解其客戶,從而提高客戶滿意度和忠誠度;
  • 在商業智能方面,數據倉庫可以幫助企業快速地分析大量的數據,從而為企業決策提供支持;
  • 在金融風險評估方面,數據倉庫可以幫助銀行和金融機構更好地評估風險和制定策略等等。

一些大型科技公司,基於自身業務訴求,也走上了數據倉庫的研發之路。

比如華為雲早在 2011 年就開始做數據倉庫——GaussDB(DWS)的預研,在經受了海量自有業務數據的考驗後,於2015年推向市場,面向金融、政府傳統一體機等企業級核心數倉場景提供服務,2017年 GaussDB(DWS)上雲,進一步提升了服務能力與服務範疇。

華為雲數倉GaussDB(DWS)資深產品專家黃海燕介紹,GaussDB(DWS)是華為雲數據生產線上的一個明星產品,是支持實時入庫、實時分析、批量運算、互動式查詢的一站式分析平臺,具備傳統數倉的超大規模、高性能、高併發等優勢,同時也具備雲原生數倉的存算分離、彈性伸縮、Serverless、湖倉一體和數智融合等能力。

歷時12年,從內到外、從本地部署到雲端服務,GaussDB(DWS)逐漸探索出了適應雲時代多場景需求的雲數倉之路。

圖片1.png

▶GaussDB(DWS)的Serverless之路

2017 年,華為雲開始加速拓展業務,推出了更多雲計算服務,GaussDB(DWS)也全面上雲。上雲之後帶來的最直接的價值在於可以減少客戶企業的硬體投資和運維成本,提高整體的運營效益。但是由於企業的業務規模不同,負載差異非常大,黃海燕表示,小一點的可能只有幾十GB的數據集,大的則有數百TB甚至更多的數據集。業務規模的差異對數倉服務的彈性也提出了更高的要求。

  • 存算分離模式

針對這個問題,華為雲GaussDB(DWS)在一開始就將數倉服務傳統的一體機模式轉換成了彈性計算服務ECS+彈性存儲服務EVS上的存算分離模式,實現了計算存儲獨立的擴容和擴展,能夠實現計算升降配、存儲彈性擴容,同時也支持在數據擴容之間的數據重分佈,且不影響業務的中斷。

隨著業務場景的不斷深入, ECS+EVS彈性擴展的方式在面對一些數據量大但計算要求不高的場景,比如車聯網、互聯網日誌、企業核心數倉的長周期歷史數據時,依然存在掣肘。

  • ECS+EVS+OBS冷熱數據管理

對此,GaussDB(DWS)團隊在ECS+EVS的基礎上又做了一層對象存儲OBS的冷數據管理,將車聯網、長周期歷史數據等放到OBS上,在不擴展計算的情況下,通過這種方式實現冷熱數據的管理,進而達到計算和存儲的平衡。最終集成為ECS+EVS+OBS冷熱數據管理的方式,GaussDB(DWS)基於本地盤進行性能加速,將 OBS 作為冷數據區,數據存儲異構擴展至OBS,利用分層存儲的方式,實現數據按需選擇存儲和計算引擎、冷熱數據遷移動態切換等,進而在不影響數倉體驗的前提下,達到成本最優。

  • 同時支持三種模式

“後來我們發現ECS+EVS+OBS冷熱數據管理的方式依然有覆蓋不到的場景,比如說有一些場景它需要在跑批量的時候同時能夠跑併發的查詢,還希望一份數據實現多樣化的分析和存儲。因為有一部分熱數據在EVS上,很多時候沒有辦法高效地擴展分析,所以後面我們把所有的數據都放在OBS上,原來的 EVS作為數據的緩存,OBS數據可以供多個集群、數據湖或者是AI去分析,再通過原先的EVS轉換成一個角色,做數據分析加速。可以理解成我們同時支持了三種模式,這三種模式不是相互替代的關係,而是各有其應用的場景和特點。”黃海燕提到。

基於上述三種Serverless模式, GaussDB(DWS)成功為1700+客戶提供了不同業務場景下的數據倉庫服務。黃海燕表示:“現在雲上有很多彈性的場景,比如說互聯網,在我們歸納來說我們認為有兩大類的彈性場景”。

  • 長周期的彈性場景

主要有幾種類型:第一種是在固定的時間點上有一個潮汐波動,比如“雙十一”、“618”這類促銷節點;第二種是隨著企業規模的擴大,用戶量、數據量、計算量也會遞增;第三種是業務具備明顯的長周期時間特征,比如銀行在月末、季末、年末有結算的需求,計算量會比平時要大,游戲行業在周末時業務量會比平時更大。

  • 短周期的彈性場景

即短期內有多樣化的訴求。比如銀行00:00-8:00是批量的運行高峰,8:00-18:00在批量運行的同時會有一些對報表、經營數據的互動式查詢,18:00後是業務的低峰期,整體呈現一個潮汐波動。

Serverless的極致彈性擴縮容,很好地滿足了長、短周期彈性場景下的業務需求,但是存算分離的架構也可能會帶來網路開銷變大、數據處理效率變低、性能下降等問題,對此GaussDB(DWS)團隊也做出了較多的探索。

  • 首先,在ECS+EVS+OBS的模式下,數據統一存放在OBS上,EVS充當緩存(磁碟緩存+記憶體緩存)的角色,由於磁碟緩存相對而言成本較低,且大小可控,所以GaussDB(DWS)做了一個大比例的磁碟緩存,用戶可以根據對性能或者成本的要求調整比例,理論上如果要追求極致性能,可以不斷調大磁碟緩存,直到滿足業務需求。
  • 其次是計算下推,把查詢的邏輯直接下推到OBS,用戶如果要從OBS上查數據,直接從源端進行數據過濾,從而減少網路傳輸對記憶體的占用,帶來性能的提升。
  • 最後是I/O管控,GaussDB(DWS)採用多個I/O調度的代理和線程,直接從OBS上Road數,充分把OBS的帶寬利用起來,避免負載低時OBS用不上,負載高時互相爭搶的問題,進而實現性能的最大化。

除了在Serverless方向的探索外,GaussDB(DWS)在湖倉一體與數智融合上同樣取得了一些突破。

▶“湖倉一體+數智融合”的未來暢想

對於“湖倉一體”的探索,華為雲做的比較早,只不過當時主要是通過外表技術實現數據共用,比如對於Spark或Hive的表,在數倉里建一張外表和它對應,從而查詢Spark和Hive里的數據。但是這種方式隨著數據規模的增加,維護成本也會倍增。

外表技術本質上只能訪問數據,並不知道元數據長什麼樣,如果元數據內容統一的話,對用戶來講就不需要建這個外表。

基於這個思路,GaussDB(DWS)引入了External schema的概念,通過創建一個External schema,然後以schema.table的方式去訪問Hive和Spark的元數據,和正常SQL一致,還可以和GaussDB(DWS)的內表做關聯分析,從而使得GaussDB(DWS)的優化器能力和執行引擎能力更強。

“未來華為雲這邊,整個 EI 平臺會建立一個Lake Formation的統一存儲管理的組件服務,它會統一管起來所有的數倉和數據湖裡面的各種組件的元數據,真正實現元數據意義上的共用,元數據的共用是比數據共用難度更高,或者說是真正有更大價值的東西。”華為雲數倉GaussDB(DWS)技術專家齊天表示。

此外,為瞭解決多種資料庫插件或引擎的調度問題,GaussDB(DWS)還提供了一個叫做External Connection的能力,可以直接調用外部的計算引擎,用於計算共用數據或者是它們的自有數據,從而用一個或者一套引擎實現計算的統一。數據共用、元數據共用以及計算統一,是GaussDB(DWS)數倉一體的三大技術特征,並由此打破數據孤島效應,解決企業的IT資源分散、數據不通、應用孤立等問題。

在實現多平臺的數據拉通之後,面向未來,華為雲數倉又提出了“數智融合”的概念。據瞭解,數智融合本質上是把數據和AI這兩條原本完全割裂的生產線融合到一起,從而實現1+1>2的效能。

當前GaussDB(DWS)對數智融合的探索主要在兩大場景:

  • 一是對於批量數據,GaussDB(DWS)可以將它們存儲在OBS上,通過OBS實現和AI之間的數據共用,從而在不影響數倉體驗的前提下,融入AI的自動化批量數據處理的能力;
  • 二是即席查詢場景,GaussDB(DWS)針對數據訪問的插件做了優化,進而讓AI生產線能夠更好、更快速地從中獲取數據等。

縱觀數據倉庫的演進之路,不難看出,從誕生的那一刻起,它就不斷在與新技術、新場景相融合,並獲得生機,從而持續釋放數據的價值,推動產業發展。

GaussDB(DWS)的全面Serverless化、湖倉一體和數智融合等特征,是華為雲對於新時代數據倉庫技術演進方向的重要判斷,同樣也是數據倉庫技術順應時代、發展迭代的結果。隨著AI新時代的到來,數智融合之後的數據倉庫技術又將會迸發出怎樣的力量,值得期待。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## 一:背景 ### 1. 講故事 前段時間有位朋友找到我,說他們的工業視覺軟體僵死了,讓我幫忙看下到底是什麼情況,哈哈,其實卡死的問題相對好定位,無非就是看主線程棧嘛,然後就是具體問題具體分析,當然難度大小就看運氣了。 前幾天看一篇文章說現在的 .NET程式員 不需要學習**WinDbg** , ...
  • 記憶體“泄露”是開發中常見的問題之一,它會導致應用程式占用越來越多的記憶體資源,最終可能導致系統性能下降甚至崩潰。軟體開發者需要瞭解在程式中出現記憶體泄露的情況,以避免軟體出現該的問題。 **什麼是記憶體“泄露”?** 記憶體泄露是申請了記憶體空間的變數一直在占用,無法釋放。比如申請了一塊記憶體空間,沒有回收一直 ...
  • # lvm邏輯捲 ## 前言 > raid磁碟陣列技術,提高硬碟的讀寫效率,以及數據的安全,raid的缺點在於: > 1.當你配置好了raid磁碟陣列組,容量的大小,已經是限定了,如果你存儲的業務非常多,磁碟容量不夠用的問題就會出現,你想要擴容磁碟的空間,就會非常麻煩。 > 2.不同的磁碟分區,相對 ...
  • > 本篇內容主要來源於自己學習的視頻,如有侵權,請聯繫刪除,謝謝。 ### 1、etcd讀請求概覽 etcd是典型的`讀多寫少`存儲,在我們實際業務場景中,讀一般占據2/3以上的請求。一個讀 請求從client通過`Round-robin(輪詢)`負載均衡演算法,選擇一個etcd server節點,發 ...
  • # Shuffle的深入理解 什麼是Shuffle,本意為洗牌,在數據處理領域裡面,意為將數打散。 問題:shuffle一定有網路傳輸嗎?有網路傳輸的一定是Shuffle嗎? ## Shuffle的概念 通過網路將數據傳輸到多台機器,數據被打散,但是有網路傳輸,不一定就有shuffle,Shuffl ...
  • 向量資料庫是一種特殊類型的資料庫,它可以存儲和處理向量數據。向量數據通常用於表示多維度的數據點,例如在機器學習和人工智慧中使用的數據。在向量資料庫中,數據被表示為向量,這些向量可以在多維空間中進行比較和搜索。 ...
  • 隨著業務的發展,[實時場景](https://www.dtstack.com/dtinsight/streamworks?src=szsm)在各個⾏業中變得越來越重要。⽆論是⾦融、電商還是物流,實時數據處理都成為了其中的關鍵環節。Flink 憑藉其強⼤的[流處理特性](https://www.dts ...
  • # 一. MySQL體繫結構 ![](https://tcs-devops.aliyuncs.com/storage/112v957e3962f4a8a6d4d8eb1a194d885fa0?Signature=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJBcHB ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...