摘要: HetuEngine作為MRS服務中互動式分析&多源統一SQL引擎,親自全程體驗其如何實現多數據源的跨源跨域分析能力。 本文分享自華為雲社區《MRS HetuEngine體驗跨源跨域分析【玩轉華為雲】》,作者:龍哥手記。 HetuEngine作為MRS服務中互動式分析&多源統一SQL引擎,親 ...
摘要: HetuEngine作為MRS服務中互動式分析&多源統一SQL引擎,親自全程體驗其如何實現多數據源的跨源跨域分析能力。
本文分享自華為雲社區《MRS HetuEngine體驗跨源跨域分析【玩轉華為雲】》,作者:龍哥手記。
HetuEngine作為MRS服務中互動式分析&多源統一SQL引擎,親自全程體驗其如何實現多數據源的跨源跨域分析能力。
一場景完整描述
1.1 首先說明下
1)用戶通過登錄Windows跳板機,使用SQL開發工具DBeaver連接MRS集群A的HetuEngine進行分析體驗
2)跨源分析體驗,通過HetuEngine0連接集群內部數據源hive
3)跨源分析體驗,通過HetuEngine0連接集群內部數據源hbase
4)跨倉分析體驗,通過HetuEngine0連接關係型資料庫DWS
5)跨湖分析體驗,通過HetuEngine0連接到MRS集群B的HetuEngine1再連接到集群B的數據源hive
二 登錄環境並完成準備工作
2.1. 登錄跳板機
登錄:http://121.13.226.78:18080/ssh/#/
① 用戶名:hdc01,
② 密碼:請聯繫現場引導員獲取
2.2 登錄認證軟體MIT Kerberos進行認證
點擊右下角的MIT Kerberos,選擇Get Tickets輸入用戶名密碼獲取Kerberos認證票據
① Principal:[email protected],
② Password: Admin12!
2.3 打開SQL編輯器軟體DBeaver
2.4 查看已配置好的MRS集群A的HetuEngine連接
點擊三角符號打開已配置好的HetuEngine連接
說明:
① dws: 外部dws資料庫
② hbase: MRS集群A中的hbase數據源
③ hetu1: 遠端MRS集群B的HetuEngine
④ hive: MRS集群A中的hive數據源
三 體驗HetuEngine hive查詢性能提升
3.1 通過普通JDBC查詢MRS集群A中的hive表
選擇配置好的hive數據源92-hive - New Connection,右鍵選擇SQL Editor
輸入以下SQL語句並查看結果與時間
SELECT * FROM sales h1 WHERE h1.price >30;
3.2. 通過HetuEngine查詢MRS集群A中的hive表
選擇配置好的hive數據源92-HetuEngine - New Connection,右鍵選擇SQL Editor
輸入以下的SQL語句並查看結果和時間
SELECT * FROM hive.default.sales h1 WHERE h1.price >30;
3.3. 結論
通過比較兩次查詢時間,可以看到HetuEngine會加速查詢性能,比普通的hive查詢更加快速;
四 體驗HetuEngine跨源、跨倉分析能力
4.1 通過HetuEngine對MRS集群A中的HBase進行跨源數據查詢
在打開的SQL Editor中輸入如下SQL語句查詢MRS集群A的HBase數據
SELECT * FROM hbase.default.sales;
4.2 通過HetuEngine對DWS集群C進行跨倉數據查詢
在打開的SQL Editor中輸入如下SQL語句查詢DWS集群C中的維表數據
SELECT * FROM dws.public.person;
4.3. 體驗MRS集群A的hive同DWS集群C跨倉分析查詢
在打開的SQL Editor中輸入如下SQL語句可做MRS集群A的hive與DWS集群C的跨倉數據分析
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hive.default.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id WHERE h1.price >30;
4.4 體驗MRS集群A的hbase同DWS集群C跨倉分析查詢
在打開的SQL Editor中輸入如下SQL語句可做MRS集群A的hbase與DWS集群C的跨倉數據分析
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hbase.default.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id WHERE h1.price >50;
4.5 下結論
出於管理和信息收集的需要,企業內部會存儲海量數據,包括數目眾多的各種資料庫、數據倉庫等,此時會面臨數據源種類繁多、數據集結構化混合、相關數據存放分散等困境,導致跨源查詢開發成本高,跨源複雜查詢耗時長。HetuEngine提供了統一標準SQL實現跨源協同分析,簡化跨源分析操作;
五 體驗HetuEngine跨湖分析能力
5.1 將MRS集群A的HetuEngine連接到MRS集群B的HetuEngine進行跨湖查詢
在打開的SQL Editor中輸入如下SQL語句可做MRS集群B中HetuEngine的hive跨湖查詢
SELECT * FROM hetu1.hetu1_hive.sales;
5.2 體驗MRS集群B的HetuEngine同DWS集群C跨湖分析查詢
打開SQL Editor輸入如下SQL語句可做MRS集群B中HetuEngine的hive同DWS集群C的跨湖查詢
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hetu1.hetu1_hive.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id;
5.3 結論
HetuEngine提供統一標準SQL對分佈於多個地域(或數據中心)的多種數據源實現高效訪問,屏蔽數據在結構、存儲及地域上的差異,實現數據與應用的解耦。