摘要:華為雲FusionInsight MRS HetuEngine持續提升自助用數分析平臺的可服務、易運維能力,基於AI技術持續提升對數據分析平臺的智能化賦能水平,引領現代數據分析平臺向專業化、智能化、易運維、高性能方向演進。 本文分享自華為雲社區《現代數據平臺要實現自助用數還要解決的三大問題》, ...
摘要:華為雲FusionInsight MRS HetuEngine持續提升自助用數分析平臺的可服務、易運維能力,基於AI技術持續提升對數據分析平臺的智能化賦能水平,引領現代數據分析平臺向專業化、智能化、易運維、高性能方向演進。
本文分享自華為雲社區《現代數據平臺要實現自助用數還要解決的三大問題》,作者:高深廣。
數據已經是社會運行、工作生產過程的關鍵要素。自2020年以來,全球多個國家將“數據”列入國家級政策中,中國也率先在2019就提出數據是第五種生產要素,併在接下來幾年內,先後在重要規劃報告中,定義“大數據”為“戰略性新興產業”,強調數據要素化,推動數據驅動協同創新,充分發揮數據要素作用,再一次為大數據技術發展和深度應用註入新鮮活力,為產業融合提供準確的關鍵要素,各省市、各企業單位積極探索,中國數據要素市場規模快速步入千億時代。
如何使用全新生產要素,支撐數字經濟發展和運行,挖掘和激活內需潛力,全球共識之一就是構建數據交易市場,構建立以數據資產為中心的生態系統,為參與者提供基礎的數據交易功能和服務。外部通過一次性或定期訂閱實現數據貨幣化交易,需要註意的是建立交易市場的重點是完善數據資產共用,而不是貨幣化。市場將進一步消除企業之間數據共用的障礙,企業被豐富的數據資產,還能進一步降低運營成本而吸引。據預測,到2025年,90%的新數據分析、部署將通過建立的數據生態系統進行,從而導致整個數據和分析市場的進一步整合。到2024年,在政企內部構建其完整數據管理環境中採用積極的元數據分析的組織將將向用戶交付新數據資產的時間縮短70%。在國內隨著數據在改革工作中的定位通過行業實踐不斷深化,不斷為市場指明方向,以數據要素市場為抓手,加快數據要素流通。在中國由多個部門牽頭,不斷完善國家級合規數字資產交易市場,推動數字化成果全民共用。
但是,以建設數據要素市場這種現代數據交易平臺為例,當下支撐市場建設的數據平臺仍然存在三個難點:
難點一,怎樣實現數據要素的三權分離,可管可控?數據具有所有權、使用權、經營權屬性。在一些面向個人的場景,企事業單位和個人即是數據的生產者,又是數據的擁有者,還能是數據的加工者;但在大數據場景,企業一般擁有更多海量數據,對數據具有所有權,以及在確保隱私下的使用權和經營權。隨著眾多的行業主體單位,企業和個體加入數據要素市場活動中,通過不斷完善法律法規,如何實現數據“有限”共用,做好海量數據的產權界定和分級分類等管控,仍是首席信息管理和首席安全官要考慮的首要問題。
難點二:如何打破現有數據壁壘,打破“部門牆”,讓數據真正流動起來。眾所周知,數據的本質是信息,碎片化的、條線化的數據,僅能反應部分客觀事實。所以在近幾年來,業界共識是數據融合創新,在不同分析師、不同部門,甚至不同企業單位,都意識到,通過數據共用,驅動業務創新的價值,同時亟需有力的平臺和技術保障來進一步支撐這一觀點的落地。在數據安全有保障的前提下,數據一方面是有價值的,但海量原始數據也存在大量的噪音,不經過治理,不經過加工,也很難發揮其有效價值,甚至會導致不客觀的結論。這也是數據平臺建設部門和業務部門所關心的核心問題之一。
難點三:如何建設數據交易市場的基礎性數據交易平臺。近年來,數字化浪潮隨著信息基礎設施的建設,通過人工智慧、大數據技術與行業的不斷深入行業場景,使得數據在企業單位內得以正確使用,享受數據價值紅利。中國各行業的數字化整體規模仍存在差距,尤其是第二產業數字化發展之滯後但增速較快,以能源業為代表的陝煤、山能、三峽集團等大中型企業,以“上雲用數賦智”為牽引,不斷提升生產效率,實現精細化運營。當前,中國是當前世界上最大的製造業國家,規模等於美日德綜合,在數字化轉型道路上道艱且長。數字社會、數字政府也在全國各地穩步推進,以一體化大數據中心體係為牽引,支撐智慧城市建設,不斷提升社會治理水平;相較其他行業,電信業和金融業基於早期規模化的IT基礎設施,一方面利用雲和大數據技術不斷強化經營,另一方面不斷享受大數據帶來的紅利,進一步形成數據資源利用的正迴圈。在電信領域,2021年雲計算、大數據等新興業務發展加速,數據中心、雲計算、大數據業務比上年分別增長18.4%、91.5%和35.5%,成為收入增長第一拉動力;在金融領域,大數據的應用分析能力,正在成為金融機構未來發展的核心競爭要素,僅在智能風控場景,市場規模就達到近80億元的規模。
各行業處於不同的數字化階段,安全、高效的現代數據平臺,正基於數字化基礎設施,使得社會和企業通過數據要素驅動發展和生產不斷向前。
綜上所述,現代數據平臺的能力不斷迭代,滾動向前,一方面是得益於時代背景下,各企事業單位更加重視數據的價值;另一方面數據已在各行業數字化浪潮中,發揮重要價值。大數據在近年來即解決了海量數據的存儲、計算問題,還進一步深度解決了時效性差的問題,數據無法跨域融合使用的問題。業界對於數據在一個現代數據平臺內流動,加速已是主流趨勢,湖倉一體架構已經兼具數據湖的多樣性全量數據承載和數據倉庫的事務性優勢,成為主流架構。
數字化轉型不能一蹴而就,要從思想、方法和技術方面匹配實際場景,不斷進化。數據交易市場僅是加強數據融合共用創新,釋放數據價值的一種手段縮影,湖倉一體主要解決現代數據平臺的架構選型問題,要進一步釋放政企數字生產力,但還要解決上述實際使用過程中的安全、治理和效率三個方面的問題。
1 現代數據平臺仍需解決的三大趨勢和挑戰
1.1 隨著數據平臺深入生產主流程,數據安全成為管理者關註的首要問題
隨著數字化在政企業務生產主流程不斷發揮作用,數據平臺的操作者已經從兩類變為四類。
在政企早期建設的大數據平臺,以“能用”為主,各業務部門按需求建設,由平臺建設維護部門承接建設和日常運維工作,包括機房規劃、軟硬體安裝部署、日常調優等乾工作,甚至在小型大數據中心(一般50節點/5個機櫃以下),其本身更是業務使用方自己去承擔這些內容。業務使用方主要對大數據內容數據進行分析、挖掘,輸出大數據應用模型、分析研判結果,提出建設需求工作,包括業務應用建設規劃、互動式查詢分析、跑批分析、輸出報告等日常工作,甚至在一些企業剛起步時,建立的小型大數據中心,使用者還需要負責建設、運維等工作。
隨著數據在生產過程中的作用愈發明顯,在生產、經營等方面不斷為客戶提供準確的研判依據,數據平臺會隨著業務量增長而不斷擴容,業務量增大意味著更多的數據量,數據和業務雙輪驅動,正向迴圈。以華為集團IT為例,在2014年開始建設時,僅有50節點,隨著華為各業務的高速發展,至2021年已發展至1萬多節點,集群規模增長了200多倍,華為集團IT HIS數據湖已經從早期僅支持報表分析,成為華為公司數字化轉型的基礎,通過數據驅動,數字化運營,實現資金流、信息流、物流可視,支撐公司18個部門,近1萬多名數據分析師的日常工作平臺,其已是FusionInsight全球最大的商用單集群。金融頭部客戶,例如工行,自2013年開始和FusionInsight合作開始,建設湖倉一體平臺提供高穩定性、高可靠性的數據服務平臺,至2021年已從早期的跑批作業、報表分析,向支撐全行數據分析如實時計算、聯機查詢、互動式分析等場景演進,至今已實現全量數據入湖,支撐1.3萬名分析師工作,日均跑批作業20萬個,流式計算30萬次/s,互動式查詢從原先1200多秒響應降至平均20多秒,從此時的數據平臺,也讓建設部門從原先的“成本中心”向支撐全局性服務的重要支撐部門,成為“能力中心”。此時的數據平臺的參與者已悄然發生變化。
從上圖可見,新增了數據許可權管理和平臺資源管理角色。一方面是由於早期數據較少的情況下,管理起來並不複雜,隨著平臺承載了全量業務數據,數據的訪問許可權、訪問範圍、讀寫許可權等等控制,在數據安全大背景下逐步變得必要。另一方面,早期因為數據少、作業少,平臺的CPU、記憶體、網路、硬碟等資源較為充裕,甚至有閑置情況;當數據逐步進入各部門主業務流程,平臺建設規模要考慮平衡各業務部門日常需求和建設成本的矛盾,避免平臺業務使用者白天工作大量使用,而在夜晚休息時資源限制的問題,隨著平臺承載的數據量越來越大,對任務的優先順序、資源分配尤為重要。數據分析師通常根據計算目標範圍的數據量大小通常達到GB以上,分析計算任務向平臺請求整個資源平臺的CPU、記憶體、網路等資源,同時根據業務重要性不同,一般要求對關鍵的經營、風控、監管過程要預留資源,甚至在極端情況下,關鍵任務需要執行時,資源平臺存在的搶占風險就成為了運維人員首先要解決的問題。常見的辦法是要求平臺運維終止非關鍵作業,將有限的資源給優先順序高的關鍵任務,待關鍵任務執行完後,再回覆原先要執行的作業,導致一些列後續作業也要發生變化,對運維人員、資源調配人員提出了更高要求。
總而言之,客戶對於數據的安全、資源的調配越來越重視,政企的大數據平臺也隨著技術發展,向雲原生、湖倉一體現代數據平臺演進,其職能從簡單的數據分析報表,向支撐全局業務活動提供一站式的數據服務轉變。
那這個時候我們是否可以選擇開源技術去構建數據平臺呢?開源社區經過多年發展,採用全球各地的開發者共建模式,迅猛迭代出現80+大數據組件,全球頭部雲計算、大數據公司都重視其在開源大數據社區的影響力,一方面投入開源社區建設,一方面將代碼、組件貢獻給開源,保障開源社區的健康演進。那麼答案也顯而易見,開源大數據的主要目標是技術演進,以開源資源調度為例,其線性式任務隊列機制,在早期大數據平臺建設時,可以管理好作業任務。但是隨著集群規模超過200節點,各類組件因為在開發時,開源的開發者並沒有企業級、生產級的硬體資源和實際環境,導致無法充分考慮商業級的需求,我們發現客戶採用的開源大數據在上線後,實際存在擴容瓶頸、資源慢、JVM GC開銷大等等一系列技術問題。而且政企數據平臺的管理者,已不僅僅關註技術創新,還需要對平臺的安全性、穩定性負責,其更傾向於有全球服務能力,可持續演進的企業級現代數據平臺供應商。
1.2 當數據安全不再是問題,找數難成為困擾數據平臺管理者的新問題
早期大數據平臺按業務需要逐步建成,大數據集群和數據由各業務部門自己控制,數據分散在數據湖、數據倉庫、資料庫中。隨著單業務大數據分析的不斷完善,僅用單個部門的幾類數據,已經無法創新,業內的目光在2019年轉向成熟的“數據融合”機制,旨在藉助外部數據增強自身業務和應用創新,進一步豐富主營業務種類和生產過程。當前,數據融合已經在科技抗疫、旅游、營銷等領域通過數據融合已發揮重要價值,為政企客戶帶來巨大收益,數據融合這一過程在未來幾年仍然是重要方向,甚至是湖倉一體架構所支撐的最基礎性的工作內容之一。
數據融合是重要方向,但是已經建成的數據平臺依舊是割裂的,客戶現網的數據從全局視角看是孤島式的,有哪些數據?數據在哪裡?數據變更後,如何同步全局使用?這類讓使用者頭疼的找數難問題,是數據融合驅動業務創新的障礙,也成為了驅動平臺演進方案的動力。
在採用建設全局統一數據平臺的方式,解決了系統級的數據割裂問題,還會面臨下一個問題:一方面因為業務使用數據的方式不同,數據根據使用方式已經採用了10+種引擎、組件,散落在高性能點查、明細查詢、全文檢索等數據組件中;另一方面,SQL語言因為資料庫在近幾十年來的不斷普及,其以易部署、易使用、操作靈活,為各企業培養了自己的DBA等IT專業人才。當客戶深度使用數據的時候,客戶需要懂業務的分析師能統一操作界面,使用業界通用的、自己熟知的方法和工具,直接操作數據,以敏捷應對外部環境變化,保持數據信息的鮮活和整個組織經營的敏捷靈活性。此時數據平臺的入口分散、技術門檻高就成為數據平臺高效使用的另外一大障礙。
1.3 當數據安全有所保障,數據使用門檻不斷降低,數據智能成為分析提效的新手段
一旦掃清了數據使用方面的障礙,數據分析的執行效率問題隨之而來。華為在服務3000+政企客戶的過程中,逐步採用二維調度替代開源一維調度,讓資源利用率達98%+。但數據量一直在隨著業務高速發展而不斷增大,業務數據的分析任務量也隨著數據價值不斷被激發而增多,為應對這一變化,通常客戶有兩種辦法去解決:一種是不斷的擴容,還有一種是增強計算引擎能力。前一種,一般企業大數據中心通常受制於預算、物理機房空間、供電等一系列因素,在短期內無法通過不斷擴容敏捷反應需求。而後一種辦法,也是客戶對於數據引擎的效率不斷提出更高追求,數據越大反而要求計算越快這種矛盾的需求一直存在,早期通過分庫分表解決,但會導致數據割裂;後來採用Cube提前預聚合方式,但會導致集群迅速膨脹x倍數量;客戶亟需智能化、高性能的互動式引擎,既能根據數據量自動學習優化,還能過濾大量非必要的數據計算過程,客戶需要一種一站式智能化分析引擎來解決如上三個重要問題,實現高效、敏捷、靈活的自助用數,加速釋放數據價值。
2 解決方案
2.1 平臺管理職能精細化專業化
一般來說,現代數據平臺需要將原有高度集中大一統的管理職能,細化分解成如下3類:
計算資源需要合理調配
不同業務領域,對計算資源的需求存在明顯的細節差異。除了計算資源量化上限的差異以外,現在數據分析平臺還對平臺管理職能提出了更高的要求和挑戰,需要從以下三點重點考慮調配需求:
1. 計算節點的硬體選型(計算密集型、記憶體密集型等,是否包含本地SSD盤等)
2. 計算節點的軟體拓撲(軟體進程數,單個進程的記憶體、CPU資源分配等)
3. 計算服務的併發容量(同時線上用戶數、連接數,可支撐的同時線上任務規格等)
用數許可權
隨著現代數據平臺的功能持續加強,能夠直接對業務提供的數據訪問分析場景日益豐富。因此,業務用戶對現代數據平臺的自助用數許可權管理力訴求之水漲船高。主要包括:
1. 多層級的用數許可權傳遞機制:支持業務數據管理許可權的逐層分解與傳遞,以便能夠分解到一個容易落地的數據管理粒度;
2. 統一的數據許可權介面:支持數據訪問許可權的實時生效與取消;
3. 數據共用與轉發:一個數據經過轉換和加工後,可以快速開放給指定的用戶使用。
SQL運維
早期的數據平臺只需要關註系統運行維度指標監控,隨著“湖倉一體”理念的持續深入落地,基於數據湖內的數據分析平臺的SQL化運維監控工作逐漸變的緊張起來。業務管理員對於本業務領域的SQL運行總體分佈、運行統計、改進空間等非常關註,並有很大動力去定期生成運維報表,用於指導後續的業務優化與改進措施。
由於上述三種管理職能的專業性要求相對較高,且與具體業務訴求強相關,因此對於同一個業務來說,需要由對業務和數據平臺都比較熟悉的人員來擔任業務平臺管理員。
在現代數據平臺,一個比較合理的管理分工策略如下圖所示:
平臺管理員需要將管理許可權下放給不同業務部門(團隊),每個業務部門(團隊)自己任命管理員來實施本業務領域的日常數據分析管理,包括以下三點:
1. 本業務領域的計算資源的申請、分配、變更(在平臺管理員授予的資源範圍內進行);
2. 本業務領域的數據分析用戶列表管理,並完成與本業務領域的計算資源的自動綁定(現代數據平臺基本為雲原生架構,該操作為一次性初始化操作);
3. 本業務領域的日常SQL作業監控與異常統計,大SQL/慢SQL識別與管理,SQL作業資源瓶頸提前預判與整改。
為了支撐上述管理目標的達成,現代數據平臺需要具備如下能力:
1. 具備成熟的雲原生管控面頁面,支持不同租戶間的許可權隔離;
2. 支持租戶級的計算資源可視化配置管理,支持細粒度的資源規格設定;
3. 具備統一的業務元數據、許可權管理體系;
4. 支持設定租戶級(業務級)的管理員,有權設定該租戶的計算資源詳細配置;
5. 支持設定不同數據對象的許可權管理員,具有將該數據對象的訪問許可權進行分發的許可權;
6. 支持自動的SQL運維統計與可視化呈現能力,支持按不同租戶進行單獨統計
7. 支持大SQL/慢SQL的自動識別與排序
2.2 統一SQL入口&數據虛擬化
平臺管理能力精細化專業化與統一SQL入口的需求往往是相輔相成、互相成就的。而數據虛擬化則是實現統一SQL數據入口的關鍵落地技術。
要建設現代數據平臺,那麼首先最重要的是構築起一個優秀的“統一SQL入口”,以此來實現業務面與服務面的架構解耦,在架構上保證數據服務的長期可演進。
由上圖可以看到,構築“統一SQL入口”,涉及到系統性的高併發、高可用設計、安全認證與防止請求攻擊。同時,還需要與後臺服務面的引擎資源調度策略進行高度協調,以保證整體性能最大化、資源利用率最大化。
1) 對於業務用戶
“統一SQL入口”可以極大的降低業務面的對接複雜度與使用成本,使得業務使用方、最終用戶只需要關註SQL業務本身即可,而不必過多關註技術平臺層面的使用細節。
2) 對於平臺管理員
而平臺管理員可以很方便地在“統一SQL入口”位置進行全局性的系統安全配置,例如:用戶身份認證、訪問審計、流量控制、防火牆設置等。
3) 對於業務管理員
業務管理員則可以在“統一SQL入口”位置進行業務-租戶資源的關係綁定,從而實現自動化的SQL請求路由。一次修改, 到處生效。
在解決了“入口”的問題後,我們著手構築起面向現代數據平臺的新一代數據分析服務——HetuEngine是華為自研高性能互動式SQL分析及數據虛擬化引擎。與大數據生態無縫融合,實現海量數據秒級互動式查詢;支持跨源跨域統一訪問,使能數據湖內、湖間、湖倉一站式SQL融合分析。
在上述架構中,無論是本地的客戶端請求、編程介面請求,還是跨域間的遠端訪問請求,都從統一的SQL入口接入到HetuEngine數據分析服務中,最大限度的降低了不同業務場景對業務用戶的能力要求,降低了對平臺管理員、業務管理員的管理、運維成本。單個HSFabric可以承擔上千個用戶鏈接,並且可以通過多個實例橫向擴展;在跨域場景,單個HSFabric可承擔GB級/s的數據吞吐壓力。
此外,HetuEngine將統一SQL入口與數據虛擬化技術結合起來,實現多源異構統一SQL訪問、高性能跨域協同分析等,包括:
一條SQL打破內部數據牆,業務上線效率提升10倍:
- 自動完成SQL改寫與計算下推
- 分散式記憶體計算,計算過程數據不落盤,讓分析快如閃電
- 一站式訪問鑒權,降低數據開放難度
跨地域/數據中心動態組網,跨域協同提效50倍:
- 去中心化許可權控制,受控對外開放。傳輸加密、分級授權
- 一條SQL語句跨地域分散式執行
- 高效傳輸:數據壓縮、高效序列化、流式傳輸、多通道並行
- 單向/雙向聯通,流量管控,斷點續傳,穿透NAT
2.3 數據分析性能優化智能化
當平臺管理員/業務管理員深度推廣互動式數據分析平臺後,會逐步識別到以下性能方面的痛點問題:
- 不知道當前業務SQL的特性和分佈特點,下一步該如何優化?
- 大量的SQL任務的部分計算相同或者重疊,是否可以共用同一份中間計算結果?
- 用戶提交的SQL質量良莠不齊,如何快速識別和評估現網運行的SQL質量,找出 效率欠佳的用戶賬號/SQL?
- 單個SQL如涉及大表掃描,極可能瞬間消耗多數的公共計算資源,如何預防這種無法預測的任務負載衝擊?
業界現有的開源軟體只能解決單次SQL任務的高速處理,卻不能解決長期線上持續SQL運維調優的問題。這就給平臺管理員、業務管理員帶來了較大的日常運維壓力。管理員也很想觀察瞭解業務變化趨勢,並提前做出種種預防措施。但是現實中的軟體或產品,缺乏對管理員的深度關懷。
FusionInsight MRS HetuEngine提供瞭如下智能化的新型解決方案:
1. 自動學習
根據用戶使用習慣,自動提取SQL語句、資源占用、耗時等多維特征,採用機器學習訓練挖掘任務間潛在內在聯繫,基於預測收益最大化原則自動生成熱緩存(物化視圖)詳細定義。
2. 自動診斷
自動完成SQL任務、用戶行為等多維度指標統計,結合語法、語義特征快速定位出質量欠佳的SQL語句和用戶信息,提前預示業務風險,運維效率提升5倍。
3. 自動加速
自動創建和維護物化視圖實現智能預計算,實現對高價值業務訪問請求的自動識別與加速,同時有效降低整體負載壓力,優化系統穩定性和併發。
數據分析平臺,基於以上的智能化升級,從平臺、性能收益來看:
1)平臺負載收益:
- 提升查詢性能,提升業務併發能力
- 降低HDFS/OBS IO負載
- 降低集群內、集群間網路帶寬占用
2)性能收益:智能化讓億級數據分析的性能穩定保持在秒級,甚至是毫秒級響應。
4. 自動調配
自動調配超大SQL實時計算規模,自適應細粒度平滑調度,提升任務執行成功率,有效防禦偶發性大任務對系統的瞬間壓力衝擊。
5. 自動路由
自動將SQL任務請求進行動態路由,交給最恰當的計算實例來執行,達成系統高可用、資源利用率和併發容量最大化。
3 小結
上述三個趨勢與挑戰是作者基於項目需求分析、技術研究總結出的3個比較基礎性的方向,並結合華為雲FusionInsight MRS HetuEngine自身探索實踐,闡述了當前已落地的解決對策。
未來,現代數據分析平臺必將長期處於持續演進和發展變化的過程中,華為雲FusionInsight MRS HetuEngine還將基於統一元數據、統一許可權、統一安全等雲原生基礎能力,持續提升自助用數分析平臺的可服務、易運維能力,基於AI技術持續提升對數據分析平臺的智能化賦能水平,引領現代數據分析平臺向專業化、智能化、易運維、高性能方向演進。