MRS+LakeFormation:打造一站式湖倉,釋放數據價值

来源:https://www.cnblogs.com/huaweiyun/archive/2023/02/14/17120155.html
-Advertisement-
Play Games

摘要:華為LakeFormation是企業級的一站式湖倉構建服務。 本文分享自華為雲社區《華為雲MRS支持LakeFormation能力,打造一站式湖倉,釋放數據價值】》,作者:breakDawn 。 1 背景 1.1 數倉和數據湖的概念 數據分析技術在2010~2019年間,以湖倉兩層架構技術作為 ...


摘要:華為LakeFormation是企業級的一站式湖倉構建服務。

本文分享自華為雲社區《華為雲MRS支持LakeFormation能力,打造一站式湖倉,釋放數據價值】》,作者:breakDawn 。

1 背景

1.1 數倉和數據湖的概念

數據分析技術在2010~2019年間,以湖倉兩層架構技術作為主流被各數據廠商所應用,即大數據數倉+數據湖的技術形式。

  • 大數據數倉:出現最早,也最完備,從單機向分散式、智能化發展。例如 Hive、華為DWS等
  • 數據湖:狹義上的湖主要是雲廠商參與,以統一的對象存儲底座結合雲平臺水平擴展的計算資源,讓分析以數據為本、讓業務快起來。

1.2 傳統湖倉技術的挑戰

以上技術在多年的實踐中,逐步衍生出了以下的一些挑戰:

  • 隨著數據和AI業務持續創新,跨集群、跨服務的數據分析成為普遍需求。然而各集群、各服務各自持有元數據,難共用,難維持一致,需要元數據ETL操作才能共用。
  • 數據湖、數倉、AI數據化,導致數據雖然可以統一存儲在OBS孤島,但各服務元數據獨自管理,形成數據管理的孤島。
  • 湖倉協同僅能通過外表來訪問,元數據、認證、許可權都不能統一配置和管理,尤其是許可權不統一嚴重阻礙了數據跨引擎共用。

上述問題導致了構建、保護和管理數據湖的過程複雜且耗時,通常需要大量開發和維護成本,解決這一問題的關鍵在於引擎元數據需要互通,只有構建滿足各種引擎需求的數據湖統一元數據服務視圖,才能實現數據共用,避免其中額外的ETL成本以及降低鏈路的延時。

1.3 湖倉一體架構的出現

為瞭解決上述數據湖的相關挑戰,2019年左右,業界開始出現一種新的數據架構,叫做DataLakehouse(湖倉一體),它同時吸收了數據倉庫和數據湖的優勢,能夠在存算分離的基礎上,構建統一元數據層,上層服務通過統一元數據層,便捷高效地共用數據和許可權管理。因此數據分析師和數據科學家可以在同一個數據存儲中對數據進行操作,為公司進行數據治理帶來更多的便利性。

2 華為lakeFormation服務關鍵能力

華為LakeFormation是企業級的一站式湖倉構建服務,提供了數據湖元數據統一管理的可視化界面及API,相容Hive元數據模型以及Ranger許可權模型,支持無縫對接多種計算引擎(Hive、Spark等)及大數據云服務(MRS等),使客戶便捷高效地構建數據湖和運營相關業務,加速釋放業務數據價值,是數智融合的關鍵基礎設施。該產品具有以下關鍵能力:

  • 豐富的元數據和數據許可權管理

華為lakeformation支持Catalog和跨源管理,以及庫/表/函數的集中管理,可解決多種不同元數據類型之間互有差異的痛點,無需再引入第三方ETL進行查看和管理,並實現了統一的細粒度數據許可權管理,支持跨服務/跨集群的數據共用。

  • 生態開放

華為LakeFormation相容社區介面、支持平滑對接和遷移,提供了相容Hive/Spark/Flink/Trino社區的元數據介面,支持計算引擎平滑對接,同時相容Ranger的許可權介面,支持一次授權,統一生效。

  • 大規模、高可靠

華為LakeFormation支持處理海量數據業務,具有百萬級超大規模元數據管理能力,以及多AZ的容災能力,可為業務持續性提供穩定保障,且採用Serverless架構,開箱即用,簡單易上手。

3 華為雲MRS支持lakeformation創造數據價值

3.1 Lakeformation給MRS帶來的場景價值

以數智融合場景為例,當大數據用戶在MRS中創建了表T1時, 數倉用戶可通過lakeformation觀察到表T1的元數據,並通過其他MRS集群中寫入正確的數據內容。

當用戶希望通過華為MRS讀取T1數據時,可藉助LakeFormation查看T1表,再進行T1數據的獲取,整個過程中減少了多個MRS集群協同運作時的複雜ETL操作,大大提升了數據使用的效率。

另外,當企業用戶的安全管理員希望對不同MRS集群中同一業務類型的元數據進行ranger許可權限制時,可通過LakeFormation進行一次授權,統一生效,充分提高了管理效率,簡化管理流程。

3.2 MRS服務對接lakeformation能力展示

華為MRS用戶可基於最新上線的LakeFormation數據連接能力,實現LakeFormation實例的創建和授權。

在MRS控制台的數據連接頁面,支持創建如下圖所示的LakeFormation數據連接:

建立完成LakeFormation數據連接後,即可在MRS集群概覽中,配置該數據連接,實現MRS和LakeFormation之間的數據關聯。

後續再根據產品資料指導完成MRS集群組件相關配置後, 即可正常使用LakeFormation統一的數據湖元數據及許可權管理,實現元數據的管理互通、統一賦權,根據統一的元數據進行業務作業提交等。

當用戶在LakeFormation中針對MRS集群的catalog建立了department表後

其他用戶可在對應MRS集群的hive客戶端中觀察這個department表的元數據。

反過來,用戶通過MRS的hive客戶端創建一個employe表後,可以在LakeFormation中看到該元數據信息。

另外也可通過數據許可權能力,修改數據表的許可權策略,並直接同步到MRS的許可權管理組件中。

4 總結

對雲端用戶而言,業務價值發現是最重要的,華為MRS支持LakeFormation後,成功降低了數據應用的成本,幫助客戶落地“存”與“算”的管理,加快推進了數智融合進程,更大程度地釋放業務數據價值。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • STM32 SPI硬體NSS STM32F1的SPI NSS引腳並不是通常認為的,打開硬體NSS後在發送數據的時候NSS輸出低,去片選從設備,在發送完成後釋放從設備,硬體NSS而是用來實現多主機模式的。 當時我還以為買到了假STM32了呢。 在我們配置SPI為硬體NSS之後,配置代碼如下,發現不論發 ...
  • 前言 ​ 開發時習慣將所有項目將在統一文件夾下,運行目錄在其它目錄;如果每次修改後又copy到運行目錄就很蛋疼,於是找到了同步本地文件夾這個解決方法。監聽工作目錄的文件修改,同步到運行目錄。 思路 用inotify監控文件夾,如果文件夾內有文件變化則輸出變化情況 每當inotify檢測到文件變化時, ...
  • Hyper-V添加內部NAT網路 使用powershell (管理員許可權)執行 1、創建虛擬交換機,等同於在Hyper-V管理器界面中新建虛擬網路交換機 <# 說明: New-VMSwitch 是創建虛擬交換機的指令 -SwitchName 是指定創建交換機的名字 "NAT-VM" 是交換機的名字 ...
  • 前段時間在測試一個連麥 demo,demo 簡要說可以在內網環境中運行時,輸入頻道號就可以模擬連麥 但是在加入連麥時,一直返回錯誤 -2 EOF,詢問得知,該錯誤的解釋信息是“Service Unavailable”,詢問伺服器的同學得知,他們那邊的伺服器並沒有收到連麥請求 使用 wireshark ...
  • 自己編譯的內核進行修改後為後續方便查詢是那個版本的系統。 所以每次更改內核後都需要修改一下版本信息, 又因為內核一般是不變的為了區分所以增加到擴展版本上。 操作環境: 硬體是全志 V3S Linux內核是3.4 修改的方法: 方法一: 一個在menuconfig中進行增加 打開menuconfig ...
  • Vim 簡介{#vim-簡介} Vim 是 Linux 系統上的最著名的文本/ 代碼編輯器,也是早年的 Vi編輯器的加強版,而 gVim 則是其 Windows 版。它的最大特色是完全使用鍵盤命令進行編輯,脫離了滑鼠操作雖然使得入門變得困難,但上手之後鍵盤流的各種巧妙組合操作卻能帶來極為大幅的效率提 ...
  • 原文地址: https://blog.fanscore.cn/a/51/ 背景 最近接到一個需求,開發中使用了redis georadius命令取附近給定距離內的點。完工後對服務進行壓測後發現georadius的性能比預期要差,因此我分析了georadius的源碼,並對原始的實現方案進行了優化,總結 ...
  • sql語氣查詢去重的兩種方法 以下兩種都可以進行去重查詢,區別是: 用distinct去重,只能查詢到去重的屬性那一列,無法查詢其他欄位 用group by分組查詢,可以根據需求查詢對應的其他欄位,推薦用group by 第一種:使用distinct(關鍵詞distinct用於返回唯一不同的值) s ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...