4月20日,袋鼠雲成功舉行了以“數實融合,韌性生長”為主題的2023春季生長大會。會上,袋鼠雲自主研發的一站式大數據基礎軟體——數棧V6.0產品矩陣全新發佈。對旗下大數據基礎平臺、大數據開發與治理、數據智能分析與洞察三大模塊的全線產品進行全新升級,並重點發佈了企業級數據計算與存儲平臺——自研大數據引 ...
4月20日,袋鼠雲成功舉行了以“數實融合,韌性生長”為主題的2023春季生長大會。會上,袋鼠雲自主研發的一站式大數據基礎軟體——數棧V6.0產品矩陣全新發佈。對旗下大數據基礎平臺、大數據開發與治理、數據智能分析與洞察三大模塊的全線產品進行全新升級,並重點發佈了企業級數據計算與存儲平臺——自研大數據引擎 EasyMR。
今年的集體學習會議上強調:“要打好科技儀器設備、操作系統和基礎軟體國產化攻堅戰,提升國產化替代水平和應用規模,爭取早日實現用我國自主的研究平臺、儀器設備來解決重大基礎研究問題。”
袋鼠雲作為國內領先的數字化基礎軟體與應用服務商,自始自終堅持自主創新,專註大數據基礎軟體研發,利用先進技術賦能更多行業客戶數字化轉型,助力發掘和釋放數據資源的潛在價值。
全新發佈數棧V6.0產品矩陣
袋鼠雲產研負責人思樞首先介紹了數棧V6.0全新產品矩陣的落地進展以及產品升級方向。通過對多年數字化實踐沉澱的梳理、重構和升級,數棧V6.0形成了大數據基礎平臺層+大數據開發與治理層+數據分析與洞察平臺層的全新數字化產品矩陣,以迭代的新組合、新能力、新技術,為數實融合應用註入更強勁的“數棧”驅動力。
整個矩陣中,大數據基礎平臺是底座,包含全新升級的兩款產品:大數據計算引擎EasyMR 和湖倉一體EasyLake。EasyMR 主要提供 Hadoop、Spark、Flink、HBase、Trino 等一鍵式組件的安裝、運維、部署。EasyLake 則主要提供面向數據湖的統一元數據管理,及數據服務和分析。大數據基礎平臺旨在為各行業的數字化轉型提供隨時可用的強勁動力和堅實基礎。
往上看,中間層大數據開發與治理,它融合了 DataOps 數據理念,包含離線開發BatchWorks、實時開發StreamWorks、數據服務DataAPI、數據資產DataAssets和指標管理DataIndex 五大模塊。以自主可控、安全創新為技術內核,將全域數據資產進行匯聚、加⼯、治理、服務、分析,為客戶提供安全、穩定、易⽤的⼤數據平臺,加速釋放數據價值,賦能數智應用。
最上層的數據智能分析與洞察層,提供客戶數據洞察UserInsight和數據可視化分析EasyBI兩大應用功能。助力企業構建以業務價值為導向的數據分析與應用體系,驅動業務增長。
以下為數棧本次重點升級的大數據計算引擎產品 EasyMR,根據思樞演講整理而成。
EasyMR:大數據計算引擎
EasyMR 的豐富功能
EasyMR 內包含 Hadoop、Hive、Spark、Trino、HBase、Kafka 等計算組件,完全相容 Apache 開源生態,一鍵開啟 LDAP+Kerberos+Ranger 認證許可權體系,支持庫/表/行/列級許可權控制,提供企業級安全管控。
EasyMR 的集群管理包括以下五大功能:
· 主機管理:可以對接x86伺服器、ARM 伺服器、Kubernetes 集群等主機類型,進行包括批量接入、主機下架、主機監控等在內的主機操作
· 安裝部署:包含自動部署、手動部署、補丁包升/降級、組件回滾等豐富功能
· 集群運維:包含組件啟停、健康檢查、服務日誌查看等功能,以及根據客戶業務側的使用情況實現動態擴縮容
· 監控告警:隨著業務的運行,發生主機運行的異常情況,能夠實現自動告警
· 基礎管理:包括用戶管理、操作許可權管理、審計日誌等功能
EasyMR 的豐富功能能夠幫助企業,更全面、更智能、更安全地運用數據,加速企業數字化轉型。
EasyMR 的核心特性
● 信創國產化
EasyMR 完成了與主流信創生態廠商的適配互認工作,支持統信UOS、龍蜥、麒麟等國產操作系統,鯤鵬920、飛騰等國產晶元,長城擎天CF520、華為公有雲等國產伺服器的適配,以及大部分國產資料庫、國產中間件的適配。
EasyMR 的更多信創相容情況請看下圖:
● 開源/自主可控
EasyMR 作為袋鼠雲自研的大數據基礎平臺,其大數據組件100%基於開源 Hadoop,完全相容 Apache 開源生態,與開源社區同步迭代,時刻保持技術的領先性。並且 EasyMR 對 Spark、Flink、Trino、Iceberg 等部分組件特性進行優化增強,回饋社區,以開放心態共建 Hadoop 生態。
● 運維托管服務
EasyMR 提供大數據集群監控告警、安全保障、數據質量保障以及平臺運維服務;提供定期巡檢、深度體檢、成本優化以及高階調優服務;以及提供包括大數據集群遷移、集群容災建設、架構設計規劃等在內的實施服務,全鏈路一站式運維托管服務。
● 安全
通過 LDAP+Kerberos+Ranger 這套認證許可權體系,對庫/表/行/列級進行許可權控制,實現企業級安全管控。
EasyMR 國產化適配:中間件,元資料庫
Hive 的子組件 Hive Metastore,在開源的方案中通過 redis 進行緩存加速,而現在可以通過寶蘭德BCS 這樣的國產中間件對 redis 進行國產化替代。
Hive Metastore 本身的元數據信息在開源方案中存儲在 MySQL 和 OracleSQL 中,現在也可以通過適配國產資料庫,如 TDSQL、OceanBase,對開源資料庫進行替代。基於此,EasyMR 實現真正的國產化,完全自主可控。
EasyMR 深知只有實現關鍵技術的自主化、國產化,才能真正實現技術創新,攻剋“卡脖子”難題。
EasyMR 對大數據組件的功能增強
袋鼠雲作為國內領先的數字化基礎軟體與應用服務商,十分重視強化產品的基礎能力和技術能力,在開源技術的基礎上,EasyMR 對 Spark、Flink、Trino、Iceberg 等多個大數據核心組件進行了功能及性能增強。具體優化見下圖:
僅在2022年袋鼠雲技術同學就完成了上百次的 commit,為 Hadoop 生態的技術發展貢獻了屬於袋鼠雲的力量。
贈人玫瑰手有餘香,回饋社區的同時袋鼠雲實現了對整個 Hadoop 體系核心代碼的完全自主掌握,對於 EasyMR 大數據平臺遷移、大數據組件維保等做到了100%自主可控。
EasyMR 自主研發能力:技術開源
從2016年數棧V1.0發佈開始,到如今的數棧V6.0,數棧已經歷經了七年六個大版本的迭代實踐。隨著對技術能力的不懈探索,數棧內部也沉澱了一些優秀的大數據組件,如流批一體的數據同步集成組件ChunJun,DAG分散式任務調度組件Taier、大數據平臺運維組件ChengYing等,這些組件數棧已經全部貢獻給了Github,下麵是袋鼠雲開源的地址,歡迎使用。
Github地址:https://github.com/DTStack
技術無界,創新不止。袋鼠雲數棧技術團隊連續兩年榮獲“年度優秀開源技術團隊”的稱號,ChunJun 也順利晉級“2022 年中國開源創新大賽”決賽,並榮獲“優秀開源項目/社區”獎項。這些鼓勵都源於數棧技術團隊出眾的產品技術能力和自主研發能力。
CDP/CDH 平滑遷移到 EasyMR 解決方案
基於國家對於國產信創的政策要求,以及 CDH 停止服務(EoS),用戶沒辦法再獲取售後支持的大背景,各行各業的大數據平臺底座需要進行國產化替代的需求越來越強烈。基於此,數棧支持 CDP/CDH 平滑遷移到 EasyMR 的解決方案,大大降低企業遷移成本低。
生產業務不能停,該方案支持雙軌運行,即客戶的原 CDH 集群和信創的 EasyMR 集群可以同時運行。整個遷移過程操作簡單,配置靈活,通過4步即可完成所有的遷移工作。
第一步,進行計算平臺和開發套件的替換。
第二步,進行數據遷移。包括歷史數據和元數據的遷移,在遷移過程中,EasyMR 支持數據檢驗,保證在數據遷移過程中的數據一致。
第三步,執行任務遷移。包括採集任務、數據加工任務、任務依賴關係以及分析引擎。
第四步,業務切割。包含集群的切換,及老伺服器下線,新伺服器上線等動作切換,最終達到 CDP/CDH 平滑遷移到 EasyMR 的目的,並且實現對客戶側的業務無感知。
EasyMR 積累了大量的遷移成功案例,經驗豐富,可以保障整個遷移過程安全可靠。
Hadoop 平滑升級解決方案
大數據組件每年的版本更新速度比較快,不少企業還停留在 Hadoop2.0 的階段。許多客戶想升級到 Hadoop3.0 版本,體驗新的特性和性能優化,但是客戶的業務在版本更新中又不能停止,這時應該怎麼做?
EasyMR 可實現節點的動態替換,將一個節點先升級到 Hadoop3.0 的節點,在這個節點上印證沒有問題之後,再進行剩下節點的逐步替換,這樣就真正實現了 Hadoop 的無感知平滑升級。
EasyMR 的實踐應用
在介紹完 EasyMR 的具體功能和特性之後,下文將為大家介紹2個 EasyMR 的經典實踐應用落地,更深地感受 EasyMR 是如何幫助企業更高效、平滑、安全地實現實現國外進口產品的國產化替代。
某全國性股份制商業銀行:CDH 遷移至 EasyMR
某全國性股份制商業銀行,為解決分行數據應用建設效率差等問題,數棧幫助該客戶實現了 CDH 平滑遷移至 EasyMR,並且為該客戶建立了“總行統一調度+分行數據協同共用”的數據應用雲平臺。
EasyMR 使用 Trino 替換 Impala,解決了客戶 Impala 記憶體過度占用導致節點宕機的問題,提升查詢性能,實現了資源動態隔離;並且採用「雲平臺」的模式,總行+各個分行是平臺上的單獨租戶,底層存儲、計算資源共用提升數據下發效率,數據許可權隔離保證安全,不用再擔心出現分行數據誤刪除、丟失等安全問題。EasyMR 相容信創生態體系,平滑遷移至國產化環境,符合金融行業的信創國產化要求。
通過 EasyMR 大數據基礎平臺的建設,該全國性股份制商業銀行實現了成本管理和業務管控的雙效提升。
某支付行業雲服務品牌:EasyMR + 數棧Saas化
金融行業正逐漸從數字化時代邁向智能化時代,該客戶的需求是將 EasyMR 和數棧進行 Saas 化,依托數據中台產品,賦能客戶,加快走向智能化時代的步伐。
面對客戶需求,數棧 + EasyMR 與雲平臺的網路架構、伺服器、雲平臺的統一許可權管控等各項內容實現全面相容適配,保證在客戶開通許可權資源後,依然能夠保障 EasyMR 的穩定運行。並且數棧 + EasyMR 實現了「訂購—自動化部署—一鍵擴縮容」等各類操作。
作為大數據基礎軟體國產化的重要推動者之一,數棧還擁有大量成熟大數據解決方案,可以更好地支持各行業智能化、數字化應用建設。
首發數棧V6.0產品白皮書
此外,會上還發佈了《數棧產品白皮書》:從數字技術、產品能力、應用實踐、服務支持四個方面進行深度研判,針對性剋服數字化轉型短板,從數據治理、湖倉一體、數據集成、DataOps 等八個方面進行解決方案解讀,重點提升客戶數據管控能力。此外,本白皮書總結了有效的大數據基礎軟體建設經驗,為各行業企業的數字化轉型提供參考和指導。
歡迎大家掃碼進行免費獲取。
數棧始終堅持自主可控,積極致力於幫助客戶打造國產創新的企業級大數據基礎軟體,幫助客戶夯實數據基座,建立從數據獲取生產到數據消費利用的全生命周期管理體系,使數據“可見、可用、可管”,洞察數字化機遇,明確轉型方向,創造數據新價值。
今後,數棧產品也將更加貼合實際場景,用數智化方式解題,踐行“用數據產生價值”的使命。
《數棧產品白皮書》:https://www.dtstack.com/resources/1004?src=szsm
《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky
同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack