華為雲MRS支持lakeformation能力,打造一站式湖倉,釋放數據價值

来源:https://www.cnblogs.com/huaweiyun/archive/2023/02/08/17101050.html
-Advertisement-
Play Games

摘要:對雲端用戶而言,業務價值發現是最重要的,華為MRS支持LakeFormation後,成功降低了數據應用的成本,幫助客戶落地“存”與“算”的管理,加快推進了數智融合進程,更大程度地釋放業務數據價值。 本文分享自華為雲社區《華為雲MRS支持lakeformation能力,打造一站式湖倉,釋放數據價 ...


摘要:對雲端用戶而言,業務價值發現是最重要的,華為MRS支持LakeFormation後,成功降低了數據應用的成本,幫助客戶落地“存”與“算”的管理,加快推進了數智融合進程,更大程度地釋放業務數據價值。

本文分享自華為雲社區《華為雲MRS支持lakeformation能力,打造一站式湖倉,釋放數據價值》,作者:breakDawn。

1 背景

1.1 數倉和數據湖的概念

數據分析技術在2010~2019年間,以湖倉兩層架構技術作為主流被各數據廠商所應用,即大數據數倉+數據湖的技術形式。

  • 大數據數倉:出現最早,也最完備,從單機向分散式、智能化發展。例如 Hive、華為DWS等
  • 數據湖:狹義上的湖主要是雲廠商參與,以統一的對象存儲底座結合雲平臺水平擴展的計算資源,讓分析以數據為本、讓業務快起來。

1.2 傳統湖倉技術的挑戰

以上技術在多年的實踐中,逐步衍生出了以下的一些挑戰:

  • 隨著數據和AI業務持續創新,跨集群、跨服務的數據分析成為普遍需求。然而各集群、各服務各自持有元數據,難共用,難維持一致,需要元數據ETL操作才能共用。
  • 數據湖、數倉、AI數據化,導致數據雖然可以統一存儲在OBS孤島,但各服務元數據獨自管理,形成數據管理的孤島。
  • 湖倉協同僅能通過外表來訪問,元數據、認證、許可權都不能統一配置和管理,尤其是許可權不統一嚴重阻礙了數據跨引擎共用。

上述問題導致了構建、保護和管理數據湖的過程複雜且耗時,通常需要大量開發和維護成本,解決這一問題的關鍵在於引擎元數據需要互通,只有構建滿足各種引擎需求的數據湖統一元數據服務視圖,才能實現數據共用,避免其中額外的ETL成本以及降低鏈路的延時。

1.3 湖倉一體架構的出現

為瞭解決上述數據湖的相關挑戰,2019年左右,業界開始出現一種新的數據架構,叫做DataLakehouse(湖倉一體),它同時吸收了數據倉庫和數據湖的優勢,能夠在存算分離的基礎上,構建統一元數據層,上層服務通過統一元數據層,便捷高效地共用數據和許可權管理。因此數據分析師和數據科學家可以在同一個數據存儲中對數據進行操作,為公司進行數據治理帶來更多的便利性。

2 華為lakeFormation服務關鍵能力

華為LakeFormation是企業級的一站式湖倉構建服務,提供了數據湖元數據統一管理的可視化界面及API,相容Hive元數據模型以及Ranger許可權模型,支持無縫對接多種計算引擎(Hive、Spark等)及大數據云服務(MRS、DLI等),使客戶便捷高效地構建數據湖和運營相關業務,加速釋放業務數據價值,是數智融合的關鍵基礎設施。該產品具有以下關鍵能力:

  • 豐富的元數據和數據許可權管理

華為lakeformation支持Catalog和跨源管理,以及庫/表/函數的集中管理,可解決多種不同元數據類型之間互有差異的痛點,無需再引入第三方ETL進行查看和管理,並實現了統一的細粒度數據許可權管理,支持跨服務/跨集群的數據共用。

  • 生態開放

華為LakeFormation相容社區介面、支持平滑對接和遷移,提供了相容Hive/Spark/Flink/Trino社區的元數據介面,支持計算引擎平滑對接,同時相容Ranger的許可權介面,支持一次授權,統一生效。

  • 大規模、高可靠

華為LakeFormation支持處理海量數據業務,具有百萬級超大規模元數據管理能力,以及多AZ的容災能力,可為業務持續性提供穩定保障,且採用Serverless架構,開箱即用,簡單易上手。

3 華為雲MRS支持lakeformation創造數據價值

3.1 Lakeformation給MRS帶來的場景價值

以數智融合場景為例,當大數據用戶在MRS中創建了表T1時, 數倉用戶可通過lakeformation觀察到表T1的元數據,並通過DWS寫入正確的數據內容。

當AI用戶希望通過華為ModelArts讀取T1數據時,可藉助lakeformation查看T1表,再進行T1數據的獲取,整個過程中減少了MRS和其他產品聯合協同運作時的複雜ETL操作,大大提升了數據使用的效率。

另外,當企業用戶的安全管理員希望對不同MRS集群中同一業務類型的元數據進行ranger許可權限制時,可通過lakeformation按下圖所示的步驟進行操作,整個過程一次授權,統一生效,充分提高了管理效率,簡化管理流程。

3.2 MRS服務對接lakeformation能力展示

華為MRS用戶可基於最新上線的LakeFormation數據連接能力,實現lakeformation實例的創建和授權。

在MRS控制台的數據連接頁面,支持創建如下圖所示的lakeformation數據連接:

建立完成lakeformation數據連接後,即可在MRS集群概覽中,配置該數據連接,實現MRS和lakeformation之間的數據關聯。

後續再根據產品資料指導完成MRS集群組件相關配置後, 即可正常使用LakeFormation統一的數據湖元數據及許可權管理,實現元數據的管理互通、統一賦權,根據統一的元數據進行業務作業提交等。

當用戶在lakeformation中針對MRS集群的catalog建立了department表後

其他用戶可在對應MRS集群的hive客戶端中觀察這個department表的元數據。

反過來,用戶通過MRS的hive客戶端創建一個employe表後,可以在lakeformation中看到該元數據信息。

另外也可通過數據許可權能力,修改數據表的許可權策略,並直接同步到MRS的許可權管理組件中。

4 總結

對雲端用戶而言,業務價值發現是最重要的,華為MRS支持LakeFormation後,成功降低了數據應用的成本,幫助客戶落地“存”與“算”的管理,加快推進了數智融合進程,更大程度地釋放業務數據價值。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Windows server 共用的文件操作日誌預設是沒有打開的,需要手動打開,本篇文章將詳細說明如何打開。並且如何將這個日誌輸出到ELK日誌系統中。 手動打開操作日誌 1、打開你的共用審核功能 舉例:我需要監控D盤的文件讀取、寫入、刪除等操作 右鍵D盤屬性 安全 高級 審核 繼續 添加需要監視的用 ...
  • GMAC網卡相關介紹與分析 環境描述 MII 本節信息來源 MII MII共16根線,數據位寬4(tx rx各4根信號線),TX_CLK RX_CLK均是PHY提供的。 TX_ER(Transmit Error): 發送數據錯誤提示信號,同步於TX_CLK,高電平有效,表示TX_ER有效期內傳輸的數 ...
  • M1晶元 VMware安裝centOS 1.安裝 VMware VMware個人免費,可以直接在官網下載 官網地址:https://www.vmware.com/cn.html 2.安裝 1.下載鏡像 !!!這裡是一個大坑,從官網下載的鏡像,沒辦法使用,我下載了五六個arm鏡像,全是卡在安裝界面,一 ...
  • PHY的12種狀態 enum phy_state { PHY_DOWN = 0, //關閉網卡 PHY_STARTING, //PHY設備準備好了,PHY driver尚為準備好 PHY_READY, //PHY設備註冊成功 PHY_PENDING, //PHY晶元掛起 PHY_UP, //開啟網卡 ...
  • 之前一致以為索引就是簡單的在原表的數據上加了一些編號,讓查詢更加快捷。後來發現裡面還有更深的知識。 索引用於快速查找具有特定列值的行。如果沒有索引,MySQL 必須從第一行開始,然後通讀整個表以找到相關行。表數據越多,成本就越高。如果表有相關列的索引,MySQL 可以快速確定要在數據文件中間查找的位 ...
  • 摘要:在業務功能實現時,經常會用到視圖簡化查詢SQL。但有時候會因為視圖降低查詢效率,本文主要分析在業務需求滿足的情況下,將有效的過濾條件傳遞到基表,減少運算過程中資料庫需要處理的數據量,提升SQL執行效率。 本文分享自華為雲社區《GaussDB(DWS)業務視圖優化-過濾條件傳遞》,作者:衛小毛 ...
  • GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯繫小編並註明來源。 GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。 作者: wuyy 文章來源:GreatSQL社區原創 目錄 MySQL的sp運行SQL語句兩個步驟介紹 代碼跟蹤 知識應用 總結 一、MySQL的sp運 ...
  • group系列 之前覺得這裡簡單不需要再進行總結了。後來發現還是需要總結鞏固一下,還是有一些方法之類的之前未使用過。這裡來重新整理,記錄一下。 group by 將表中的數據根據某個條件進行分組。 比如下麵這張表: 如果我們按照班級進行分組 那麼數據將會是這樣的: 通過mysql執行表格數據進行校驗 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...