從困境到突破,EasyMR 集群遷移助力大數據底座信創國產化

来源:https://www.cnblogs.com/DTinsight/p/18346897
-Advertisement-
Play Games

在大數據時代,企業對數據的依賴程度越來越高。然而,隨著業務的不斷發展和技術的快速迭代,大數據平臺的集群遷移已成為企業數據中台發展途中無法迴避的需求。在大數據平臺發展初期,國內數據中台市場主要以國外開源 CDH、商業化 CDP、HDP 為主。然而,由於國際形勢的轉變,以海外大數據基礎平臺作為基石構建的 ...


在大數據時代,企業對數據的依賴程度越來越高。然而,隨著業務的不斷發展和技術的快速迭代,大數據平臺的集群遷移已成為企業數據中台發展途中無法迴避的需求。在大數據平臺發展初期,國內數據中台市場主要以國外開源 CDH、商業化 CDP、HDP 為主。然而,由於國際形勢的轉變,以海外大數據基礎平臺作為基石構建的數據中臺面臨著極為嚴峻的安全挑戰。

● Cloudera 和 Hortonworks 產品開啟付費訂閱模式

自2021年1月31日起,Cloudera 旗下的所有軟體不再提供社區版,轉而採用需付費的訂閱模式,並且訂閱費用頗高。

● 企業版停止更新和服務

Cloudera 和 Hortonworks 合併後,推出的新平臺 CDP 是 CDH 和 HDP 的最後版本,企業用戶無法獲取新功能和性能提升,並且2022年3月後停止售後支持。

● 國際事件導致的供應中斷風險

如俄烏事件,Oracle、Google、蘋果、英特爾等公司相繼停止對俄業務,進一步暴露外國軟體供應鏈的脆弱性和風險。

面對複雜多變的國際局勢,我國陸續推出相應政策推動信創產業發展。比如國資委就要求,從23年初開始,每個季度要上報信創系統的替換進度。並要求在2027年底前,實現中央企業的信息化系統國產化替代。

因此,無論是因為 CDH 不再維護,還是為了實現國產化替代,或者是為了追求更高的性能和安全性,大數據集群遷移的需求都愈發迫切。

EasyMR 作為一款領先的大數據存儲計算平臺,深刻理解企業在集群遷移過程中面臨的挑戰和痛點,其 EasyManager 大數據運維管理平臺推出了功能強大的「集群遷移」模塊,為企業提供一站式的集群遷移解決方案,助力企業在確保數據安全和完整性的同時,輕鬆高效地完成集群遷移工作。

多集群配置支持:一站式管理

支持多種大數據平臺的集群配置,包括 EMR、CDH、CDP、HDP 和 NDH。無論企業當前使用的是哪種平臺,將要遷往哪種平臺,EasyManager 都能無縫相容,為企業提供靈活的遷移選擇。

這種多集群配置支持,不僅簡化了遷移操作,還提高了企業的靈活性,讓企業能夠根據實際業務需求,選擇最合適的大數據平臺。

file

集群跨域互信檢測

集群遷移中源集群與目標集群可能分佈在不同的物理位置或不同的網路環境中,甚至跨越不同的企業和組織。在這種複雜的環境下,確保集群之間的互信是保障數據安全和穩定運行的前提。

跨域互信檢測的主要目的是:

· 確保集群間的安全通信:防止未經授權的訪問和數據泄露

· 驗證集群間的身份認證:確保只有可信的集群才能進行數據交換和協同計算

· 保障數據完整性和一致性:防止數據在傳輸過程中被篡改或丟失

遷移調度策略:靈活的任務控制

在集群遷移過程中,合理的任務調度和併發控制至關重要。EasyMR 提供了配置遷移調度策略的功能,允許企業根據自身的業務需求和資源狀況,靈活地設定遷移任務的網路帶寬和併發度。

通過靈活調度策略設定,企業可以最大化地利用現有網路、計算資源,確保遷移過程高效、有序地進行。同時,任務併發控制功能還能有效防止系統過載,保障系統的穩定運行。

file

數據一致性校驗:保障數據準確性

在大數據集群遷移過程中,數據一致性校驗是確保數據完整性和準確性的關鍵步驟。EasyMR 針對數據一致性校驗提供了一整套詳細而強大的功能,幫助企業在遷移過程中保證數據的準確性和一致性。

file

● Schema 採集和表結構對比

· Schema 採集

Schema 採集是指從源集群和目標集群中提取資料庫的結構信息,包括表名、欄位名、欄位類型、索引、約束等。這些信息是進行表結構對比的基礎。

· 表結構對比

在遷移過程中,對比源集群和目標集群的表結構是確保數據一致性的第一步。表結構對比包括以下幾個方面:

1)欄位數量對比:確保源表和目標表的欄位數量一致

2)欄位名稱和類型對比:確保欄位名稱和數據類型一致,避免因類型不匹配導致的數據錯誤

3)索引和約束對比:確保索引和約束在遷移後保持一致,保證數據操作的效率和安全性

● 記錄數採集和記錄數對比

· 記錄數採集

記錄數採集是指統計源集群和目標集群中各表的記錄數量,記錄數的對比可以快速檢測出是否有數據丟失或重覆。

· 記錄數對比

記錄數對比主要是對比源表和目標表中的記錄數量是否一致。記錄數不一致可能表明數據在遷移過程中丟失或重覆,需要進一步的檢查和處理。

● 數值 SUM 採集和數值欄位對比

· 數值 SUM 採集

數值 SUM 採集是對源集群和目標集群中所有數值類型的欄位進行求和操作。通過 SUM值 的對比,可以檢查出數值數據的一致性。

· 數值欄位對比

數值欄位對比是對比源表和目標表中數值欄位的 SUM 值,確保數值數據在遷移後的總和一致。這可以有效地發現數值數據在遷移過程中可能發生的偏差和錯誤。

● 字元 Max 採集和字元欄位對比

· 字元 Max 採集

字元 Max 採集是指對源集群和目標集群中所有字元類型的欄位進行最大值的提取,通過 Max 值的對比,可以檢查出字元數據的一致性。

· 字元欄位對比

字元欄位對比是對比源表和目標表中字元欄位的 Max 值,確保字元數據在遷移後的最大值一致。這可以有效地發現字元數據在遷移過程中可能發生的錯誤和遺漏。

● 抽樣採集和 MD5 對比

· 抽樣採集

從源集群和目標集群中隨機抽取一定數量的數據樣本進行對比。抽樣採集可以提高數據對比的效率,減少全量對比的時間和資源消耗。

· MD5 對比

通過對源集群和目標集群中的數據進行 MD5 哈希計算,將哈希值進行對比,確保數據的一致性。

實時監控與日誌定位

為了幫助用戶及時瞭解遷移進度和處理遷移過程中出現的問題,EasyMR 提供了詳細的頁面查看和日誌記錄功能

● 遷移任務狀態查看

用戶可以在頁面上實時查看遷移任務的狀態,瞭解遷移進度和結果。

● 遷移日誌記錄和分析

系統會記錄遷移過程中的詳細日誌,用戶可以通過日誌定位和解決遷移過程中出現的問題,確保遷移任務順利完成。

file

總結

EasyMR 為企業提供安全可靠、彈性伸縮、低成本的大數據存儲與計算服務,同時支持一站式遷移解決方案。遷移流程產品化不僅簡化了操作,還提升了遷移效率和安全性。無論是數據存儲與管理,還是任務調度與控制,EasyMR 都能為企業提供全面支持。

特別是在集群國產化替代方面,EasyMR 通過優化的遷移流程和強大的技術支持,幫助企業順利完成從現有環境到 EasyMR 國產環境的遷移,實現大數據集群的平穩過渡和國產化適配。
《行業指標體系白皮書》下載地址:https://www.dtstack.com/resources/1057?src=szsm

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 問題場景 SQL Server事務複製在正常創建發佈和訂閱之後,log reader Job 啟動異常,出現“The process could not execute ‘sp_replcmds’ on xxx”等異常日誌導致代理服務無法正常啟動。 異常現象 參考下圖,異常日誌如下 Error me ...
  • 整理了一下pg_dump邏輯備份還原,pg啥時候推出一個庫級別的物理備份還原就好,邏輯備份能行但操作大庫效率太低,就像MySQL/MSSQL一樣,跨實例做庫級別還原的需求太多了 pg_dump備份 pg_dump備份 -F format 參數,備份文件的格式。format可以是下列之一: p pla ...
  • Percona Toolkit 神器全攻略(系統類) Percona Toolkit 神器全攻略系列共八篇,前文回顧: 前文回顧 Percona Toolkit 神器全攻略 Percona Toolkit 神器全攻略(實用類) Percona Toolkit 神器全攻略(配置類) Percona T ...
  • 索引 百萬級別或以上的數據如何刪除? 關於索引:由於索引需要額外的維護成本,因為索引文件是單獨存在的文件,所以當我們對數據的增加、修改、刪除都會產生額外的對索引文件的操,這些操作需要消耗額外的IO,會降低增/改/刪的執行效率。所以,在我們刪除資料庫百萬級別數據的時候,查詢MySQL官方手冊得知刪除數 ...
  • 背景ClickHouse是一個面向分析型的開源列式資料庫管理系統,它主要應用於以下幾個場景: 數據倉庫和商業智能分析:ClickHouse擅長處理大規模的數據,可以用於構建企業級的數據倉庫,支持複雜的OLAP查詢,可用實時數倉,適合各種商業分析和報表應用。 實時分析和監控:ClickHouse以毫秒 ...
  • Apache SeaTunnel 2.3.6 版本於近日正式發佈,社區期待的 SeaTunnel Zeta Master/Worker 新架構、事件通知機制、支持動態編譯的transform等新功能和新能力在這次版本中都有了全面的更新,並添加了首個向量資料庫 Milvus。此外,本版本還進行了一些基 ...
  • 一、背景 大數據服務是數據平臺建設的基座,隨著B站業務的快速發展,其大數據的規模和複雜度也突飛猛進,技術的追求也同樣不會有止境。 B站一站式大數據集群管理平臺(BMR),在千呼萬喚中孕育而生。本文簡單介紹BMR的由來、面臨的主要矛盾以及如何在變化中求得生存與發展。 下圖是截至2024年6月初,統計到 ...
  • 摘要:現在商用優化器大多都是基於統計信息進行查詢代價評估,因此統計信息是否實時且準確對查詢影響很大,特別是分散式資料庫場景。本文詳細介紹GaussDB(DWS)如何實現了一種輕量、實時、準確的統計信息自動收集方案。 本文分享自華為雲社區《【最佳實踐】GaussDB(DWS) 統計信息自動收集方案》, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...