大數據計算引擎 EasyMR:擁抱開源,引領技術創新

来源:https://www.cnblogs.com/DTinsight/archive/2023/03/22/17242910.html
-Advertisement-
Play Games

身處數字經濟時代,隨著大數據應用越來越廣泛,越來越多的企業和組織開始關註大數據基礎平臺的建設和運營。在認識到其的重要性之後,如何具體著手搭建或採購大數據基礎平臺成為下一步需要解決的問題。 在大數據基礎平臺中,大數據組件是非常重要的一部分,包括數據存儲、數據處理、數據分析、數據可視化等。在選擇大數據組 ...


身處數字經濟時代,隨著大數據應用越來越廣泛,越來越多的企業和組織開始關註大數據基礎平臺的建設和運營。在認識到其的重要性之後,如何具體著手搭建或採購大數據基礎平臺成為下一步需要解決的問題。

在大數據基礎平臺中,大數據組件是非常重要的一部分,包括數據存儲、數據處理、數據分析、數據可視化等。在選擇大數據組件時,我們常常在閉源組件和開源組件選擇中反覆糾結。

本文將從優勢、劣勢兩個維度分析開源組件、閉源組件對大數據基礎平臺建設的影響,並結合袋鼠雲自研的大數據計算引擎 EasyMR 的實踐經歷進行分享。

開源組件

在大數據領域,開源組件已經成為了構建大數據平臺的重要基石。例如 Hadoop、Spark、Hive、HBase、Kafka、Storm、Flink 等開源軟體已經成為了大數據處理和分析的主要工具。

這些開源組件不僅提供了高效、可擴展、可靠的大數據處理和存儲能力,而且還促進了生態系統的發展,形成了龐大的開發社區和豐富的第三方工具及應用程式。

優勢

● 免費

開源組件一般都是免費的,其源代碼是公開的,任何人都可以下載、使用、修改和分發,這將極大降低企業的開發和建設成本。

● 靈活性

由於源代碼是公開的,企業可以對其進行自定義修改,以適應自身業務需求,增強了靈活性。

● 可擴展性

開源組件通常具有良好的擴展性,可以很容易地集成和升級到其他開源組件。

● 社區支持

開源組件一般擁有龐大的社區,社區成員均可以貢獻代碼,提供解決方案和支持。這意味著在使用過程中遇到問題,可以得到快速的幫助和解決方案。

開源軟體的開發和維護通常由廣泛的社區貢獻提供,從而形成共同的技術標準和最佳實踐,這有助於提高軟體質量和安全性,併為企業提供更好的互操作性和可移植性。

劣勢

● 依賴社區

開源組件的發展取決於社區的貢獻,如果社區貢獻較少或者停滯不前,開源組件可能會面臨更新緩慢或停止維護的問題。

● 安全性

開源組件的源代碼是公開的,這使得黑客和惡意用戶可以更輕鬆地發現和利用其中的漏洞,企業在使用開源組件時,需要進行必要的安全檢查和漏洞修複。

商業閉源組件

例如 MapR 公司的 MapR-DB、MapR-ES,IBM 公司的 IBM Streams,Cloudera 公司的 Cloudera Manager、Cloudera Navigator、Cloudera Data Science Workbench 等都是比較主流的大數據閉源組件。

優勢

● 技術支持

閉源組件通常由廠商提供技術支持,可以為企業提供更為專業、快速的支持,保障企業的業務穩定性。

● 安全性

商業閉源組件的源代碼不公開,使得黑客和惡意用戶難以發現和利用其中的漏洞,企業在使用閉源組件時,可以減少安全方面的擔憂。

● 定製性

商業閉源組件可以提供定製化的服務,以滿足企業的個性化需求。

劣勢

● 依賴廠商

商業閉源組件的維護和發展需要依賴廠商的支持,其更新迭代速度比較依賴企業的研發投入,如果廠商出現問題或者停止支持,企業可能需要更換整個組件。

● 價格高昂

商業閉源組件通常需要購買許可證或者按使用量收費,這會極大增加企業的成本。

● 數據生產效率低

商業閉源組件通常會對使用者的自由度和可控性產生限制,如禁止對源代碼進行修改等要求。

開源 or 閉源?

開源組件 or 閉源組件,企業究竟應該如何選擇?

對比來看,對於需要靈活性和可定製性較高的企業來說,開源組件更為適合;而對於更為註重技術支持和安全性的企業來說,商業閉源組件則更具有優勢。

開源組件和商業閉源組件各有優缺點,註定了它們擁有各自的市場需求。但基於 DB-Engines 全球數據管理系統排名來看,開源流行度正在逐年上升,2021年1月開源產品首次超過商業資料庫。

file

開源軟體可以降低企業的成本,提高軟體產品的通用性,同時促進技術創新和生態系統的發展。

開源軟體相比閉源軟體的優勢主要有兩點,一是眾人拾材火焰高,通過開源社區的溝通交流,能夠更快提高代碼質量;二是開源大大提高了軟體的推廣效率。

可以說,大數據基礎平臺組件開源,是當前和未來發展的趨勢。

EasyMR 的實踐之路

袋鼠雲大數據計算引擎 EasyMR,作為袋鼠雲自研的大數據基礎平臺,其大數據組件100%基於開源 Hadoop,完全相容Apache開源生態,與開源社區同步迭代,時刻保持技術的領先性。

在 CDH、HDP 社區版不再更新,國產化信創政策大背景下,袋鼠雲支持 CDH/HDP 平滑遷移 EasyMR,助力企業快速實現國產化大數據基礎平臺的搭建與遷移,真正實現對業務側不造成任何影響。

袋鼠雲作為國內領先的數字化基礎軟體與應用服務商,十分重視強化產品的基礎能力和技術能力,在開源技術的基礎上,EasyMR 對 Spark、Flink、Trino、Iceberg 等多個大數據核心組件進行了功能及性能增強。具體優化見下圖:

file

僅在2022年袋鼠雲技術同學就完成了上百次的 commit,為 Hadoop 生態的技術發展貢獻了屬於袋鼠雲的力量。

贈人玫瑰手有餘香,回饋社區的同時袋鼠雲實現了對整個 Hadoop 體系核心代碼的完全自主掌握,對於 EasyMR 大數據平臺遷移、大數據組件維保、客戶培訓做到了100%自主可控。

國際環境嚴峻複雜,袋鼠雲深知只有實現關鍵技術的自主化、國產化,才能真正實現技術創新,攻剋“卡脖子”難題。

擁抱開源不止於此

ChunJun 作為袋鼠雲重磅打造的批流一體的數據集成大數據開源項目,在袋鼠雲及眾多開源技術愛好者的協作努力下,目前已進行了5200+commit,擁有3600+star,逐步成為主流的數據集成框架。

今年,EasyMR 將集成 ChunJun 項目,為用戶帶來更加穩定、高效、易用的批流一體的數據集成解決方案

file

基於 EasyMR 的運維管理平臺 EasyManager,袋鼠雲成功開源一站式全自動化全生命周期運維管家 ChengYing。從開放式統一監控,到定義標準化部署能力,而後引入 Prometheus/Grafana/ 自研 dt-alert 組件,完成統一監控2.0的功能優化,再到多集群管理,幫助企業快速搭建自己的運維管理平臺。

file

EasyMR 的最新版運維管理平臺 EasyManager 中的前端組件及樣式是基於袋鼠雲開源項目 ant-design 的 React UI 組件庫、樣式庫進行打造。袋鼠雲 dt- React 組件為使用者提供更豐富的組件庫,可以更好的管理組件,減少代碼冗餘提高前端開發。具體內容將在之後的文章中進行詳解。

袋鼠雲秉承著開源共用的理念,受益開源的同時積極擁抱世界、擁抱開源,期待與更多開源愛好者一起共建優秀開源產品。

同時,袋鼠雲始終堅持自主研發和國產化路線,在技術創新上不遺餘力,為企業IT高效、平穩運行保駕護航。

《數據治理行業實踐白皮書》下載地址:https://fs80.cn/380a4b

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 實驗要求: 1、建立DNS伺服器,負責解析的域為openedu.com 2、要求將MX記錄指向mail.openedu.com,且對應A記錄為本機IP 3、要求將NS記錄指向ns1.openedu.com,且對應A記錄為本機IP 4、建立www的A記錄指向本機IP; 建立ftp對應A記錄為x.x.x ...
  • MySQL基礎:多表查詢 多表關係 概述 ​ 項目開發中,在進行資料庫表結構設計時,會根據業務需求及模塊之間的關係,分析並設計表結構,由於業務之間相互關聯,所以各個表結構之間也存在著各種聯繫,基本上分為三種: 一對多(多對一) 多對多 一對一 一對多(多對一) 案例:部門與員工的關係 關係:一個部門 ...
  • 資料庫系統概述 一、資料庫基本概念 1 數據 數據(Data)是描述事物的符號記錄,是指用物理符號記錄下來的、可以鑒別的信息。 數據以及關於該數據的解釋是密切相關的。 數據的解釋是對數據含義的說明,也稱為數據的語義,即數據所蘊含的信息。 數據與其語義密不可分,沒有語義的數據是沒有意義和不完整的。 數 ...
  • 資料庫編程 第一節 存儲過程 一、存儲過程的基本概念 存儲過程是一組為了完成某項特定功能的 SQL 語句集,其實質上就是一段存儲在資料庫中的代碼,它可以由聲明式的 SQL 語句(如 CREATE、UPDATE 和 SELECT 等語句)和過程式 SQL 語句(如 IF...THEN...ELSE 控 ...
  • 1、內連接 語法: SELECT 查詢欄位1,查詢欄位2, ... FROM 表1 [INNER] JOIN 表2 ON 表1.關係欄位=表2.關係欄位 準備數據 -- 若存在資料庫mydb則刪除 DROP DATABASE IF EXISTS mydb; -- 創建資料庫mydb CREATE D ...
  • 首發微信公眾號:SQL資料庫運維 原文鏈接:https://mp.weixin.qq.com/s?__biz=MzI1NTQyNzg3MQ==&mid=2247485212&idx=1&sn=450e9e94fa709b5eeff0de371c62072b&chksm=ea37536cdd40da7 ...
  • MySQL基礎:約束 概述 概念:約束是作用於表中欄位上的規則,用於限制存儲在表中的數據。 目的:保證資料庫中的數據的正確、有效和完整性。 分類: | 約束 | 描述 | 關鍵字 | | : : | : : | : : | | 非空約束 | 限制該欄位的數據不能為null | NOT NULL | ...
  • 數字革命悄然爆發,與互聯網互相成就的“人氣王”MySQL開源資料庫,如今也正面臨突破發展瓶頸的關鍵時刻,作為記憶體中的實時數據平臺,虹科提供的Redis企業版資料庫能與MySQL輕鬆實現協同合作,帶領MYSQL跑贏數字時代! ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...