摘要:華為LakeFormation是企業級的一站式湖倉構建服務。 本文分享自華為雲社區《華為雲MRS支持LakeFormation能力,打造一站式湖倉,釋放數據價值】》,作者:breakDawn 。 1 背景 1.1 數倉和數據湖的概念 數據分析技術在2010~2019年間,以湖倉兩層架構技術作為 ...
摘要:華為LakeFormation是企業級的一站式湖倉構建服務。
本文分享自華為雲社區《華為雲MRS支持LakeFormation能力,打造一站式湖倉,釋放數據價值】》,作者:breakDawn 。
1 背景
1.1 數倉和數據湖的概念
數據分析技術在2010~2019年間,以湖倉兩層架構技術作為主流被各數據廠商所應用,即大數據數倉+數據湖的技術形式。
- 大數據數倉:出現最早,也最完備,從單機向分散式、智能化發展。例如 Hive、華為DWS等
- 數據湖:狹義上的湖主要是雲廠商參與,以統一的對象存儲底座結合雲平臺水平擴展的計算資源,讓分析以數據為本、讓業務快起來。
1.2 傳統湖倉技術的挑戰
以上技術在多年的實踐中,逐步衍生出了以下的一些挑戰:
- 隨著數據和AI業務持續創新,跨集群、跨服務的數據分析成為普遍需求。然而各集群、各服務各自持有元數據,難共用,難維持一致,需要元數據ETL操作才能共用。
- 數據湖、數倉、AI數據化,導致數據雖然可以統一存儲在OBS孤島,但各服務元數據獨自管理,形成數據管理的孤島。
- 湖倉協同僅能通過外表來訪問,元數據、認證、許可權都不能統一配置和管理,尤其是許可權不統一嚴重阻礙了數據跨引擎共用。
上述問題導致了構建、保護和管理數據湖的過程複雜且耗時,通常需要大量開發和維護成本,解決這一問題的關鍵在於引擎元數據需要互通,只有構建滿足各種引擎需求的數據湖統一元數據服務視圖,才能實現數據共用,避免其中額外的ETL成本以及降低鏈路的延時。
1.3 湖倉一體架構的出現
為瞭解決上述數據湖的相關挑戰,2019年左右,業界開始出現一種新的數據架構,叫做DataLakehouse(湖倉一體),它同時吸收了數據倉庫和數據湖的優勢,能夠在存算分離的基礎上,構建統一元數據層,上層服務通過統一元數據層,便捷高效地共用數據和許可權管理。因此數據分析師和數據科學家可以在同一個數據存儲中對數據進行操作,為公司進行數據治理帶來更多的便利性。
2 華為lakeFormation服務關鍵能力
華為LakeFormation是企業級的一站式湖倉構建服務,提供了數據湖元數據統一管理的可視化界面及API,相容Hive元數據模型以及Ranger許可權模型,支持無縫對接多種計算引擎(Hive、Spark等)及大數據云服務(MRS等),使客戶便捷高效地構建數據湖和運營相關業務,加速釋放業務數據價值,是數智融合的關鍵基礎設施。該產品具有以下關鍵能力:
- 豐富的元數據和數據許可權管理
華為lakeformation支持Catalog和跨源管理,以及庫/表/函數的集中管理,可解決多種不同元數據類型之間互有差異的痛點,無需再引入第三方ETL進行查看和管理,並實現了統一的細粒度數據許可權管理,支持跨服務/跨集群的數據共用。
- 生態開放
華為LakeFormation相容社區介面、支持平滑對接和遷移,提供了相容Hive/Spark/Flink/Trino社區的元數據介面,支持計算引擎平滑對接,同時相容Ranger的許可權介面,支持一次授權,統一生效。
- 大規模、高可靠
華為LakeFormation支持處理海量數據業務,具有百萬級超大規模元數據管理能力,以及多AZ的容災能力,可為業務持續性提供穩定保障,且採用Serverless架構,開箱即用,簡單易上手。
3 華為雲MRS支持lakeformation創造數據價值
3.1 Lakeformation給MRS帶來的場景價值
以數智融合場景為例,當大數據用戶在MRS中創建了表T1時, 數倉用戶可通過lakeformation觀察到表T1的元數據,並通過其他MRS集群中寫入正確的數據內容。
當用戶希望通過華為MRS讀取T1數據時,可藉助LakeFormation查看T1表,再進行T1數據的獲取,整個過程中減少了多個MRS集群協同運作時的複雜ETL操作,大大提升了數據使用的效率。
另外,當企業用戶的安全管理員希望對不同MRS集群中同一業務類型的元數據進行ranger許可權限制時,可通過LakeFormation進行一次授權,統一生效,充分提高了管理效率,簡化管理流程。
3.2 MRS服務對接lakeformation能力展示
華為MRS用戶可基於最新上線的LakeFormation數據連接能力,實現LakeFormation實例的創建和授權。
在MRS控制台的數據連接頁面,支持創建如下圖所示的LakeFormation數據連接:
建立完成LakeFormation數據連接後,即可在MRS集群概覽中,配置該數據連接,實現MRS和LakeFormation之間的數據關聯。
後續再根據產品資料指導完成MRS集群組件相關配置後, 即可正常使用LakeFormation統一的數據湖元數據及許可權管理,實現元數據的管理互通、統一賦權,根據統一的元數據進行業務作業提交等。
當用戶在LakeFormation中針對MRS集群的catalog建立了department表後
其他用戶可在對應MRS集群的hive客戶端中觀察這個department表的元數據。
反過來,用戶通過MRS的hive客戶端創建一個employe表後,可以在LakeFormation中看到該元數據信息。
另外也可通過數據許可權能力,修改數據表的許可權策略,並直接同步到MRS的許可權管理組件中。
4 總結
對雲端用戶而言,業務價值發現是最重要的,華為MRS支持LakeFormation後,成功降低了數據應用的成本,幫助客戶落地“存”與“算”的管理,加快推進了數智融合進程,更大程度地釋放業務數據價值。