在大數據時代,企業對數據的依賴程度越來越高。然而,隨著業務的不斷發展和技術的快速迭代,大數據平臺的集群遷移已成為企業數據中台發展途中無法迴避的需求。在大數據平臺發展初期,國內數據中台市場主要以國外開源 CDH、商業化 CDP、HDP 為主。然而,由於國際形勢的轉變,以海外大數據基礎平臺作為基石構建的 ...
在大數據時代,企業對數據的依賴程度越來越高。然而,隨著業務的不斷發展和技術的快速迭代,大數據平臺的集群遷移已成為企業數據中台發展途中無法迴避的需求。在大數據平臺發展初期,國內數據中台市場主要以國外開源 CDH、商業化 CDP、HDP 為主。然而,由於國際形勢的轉變,以海外大數據基礎平臺作為基石構建的數據中臺面臨著極為嚴峻的安全挑戰。
● Cloudera 和 Hortonworks 產品開啟付費訂閱模式
自2021年1月31日起,Cloudera 旗下的所有軟體不再提供社區版,轉而採用需付費的訂閱模式,並且訂閱費用頗高。
● 企業版停止更新和服務
Cloudera 和 Hortonworks 合併後,推出的新平臺 CDP 是 CDH 和 HDP 的最後版本,企業用戶無法獲取新功能和性能提升,並且2022年3月後停止售後支持。
● 國際事件導致的供應中斷風險
如俄烏事件,Oracle、Google、蘋果、英特爾等公司相繼停止對俄業務,進一步暴露外國軟體供應鏈的脆弱性和風險。
面對複雜多變的國際局勢,我國陸續推出相應政策推動信創產業發展。比如國資委就要求,從23年初開始,每個季度要上報信創系統的替換進度。並要求在2027年底前,實現中央企業的信息化系統國產化替代。
因此,無論是因為 CDH 不再維護,還是為了實現國產化替代,或者是為了追求更高的性能和安全性,大數據集群遷移的需求都愈發迫切。
EasyMR 作為一款領先的大數據存儲計算平臺,深刻理解企業在集群遷移過程中面臨的挑戰和痛點,其 EasyManager 大數據運維管理平臺推出了功能強大的「集群遷移」模塊,為企業提供一站式的集群遷移解決方案,助力企業在確保數據安全和完整性的同時,輕鬆高效地完成集群遷移工作。
多集群配置支持:一站式管理
支持多種大數據平臺的集群配置,包括 EMR、CDH、CDP、HDP 和 NDH。無論企業當前使用的是哪種平臺,將要遷往哪種平臺,EasyManager 都能無縫相容,為企業提供靈活的遷移選擇。
這種多集群配置支持,不僅簡化了遷移操作,還提高了企業的靈活性,讓企業能夠根據實際業務需求,選擇最合適的大數據平臺。
集群跨域互信檢測
集群遷移中源集群與目標集群可能分佈在不同的物理位置或不同的網路環境中,甚至跨越不同的企業和組織。在這種複雜的環境下,確保集群之間的互信是保障數據安全和穩定運行的前提。
跨域互信檢測的主要目的是:
· 確保集群間的安全通信:防止未經授權的訪問和數據泄露
· 驗證集群間的身份認證:確保只有可信的集群才能進行數據交換和協同計算
· 保障數據完整性和一致性:防止數據在傳輸過程中被篡改或丟失
遷移調度策略:靈活的任務控制
在集群遷移過程中,合理的任務調度和併發控制至關重要。EasyMR 提供了配置遷移調度策略的功能,允許企業根據自身的業務需求和資源狀況,靈活地設定遷移任務的網路帶寬和併發度。
通過靈活調度策略設定,企業可以最大化地利用現有網路、計算資源,確保遷移過程高效、有序地進行。同時,任務併發控制功能還能有效防止系統過載,保障系統的穩定運行。
數據一致性校驗:保障數據準確性
在大數據集群遷移過程中,數據一致性校驗是確保數據完整性和準確性的關鍵步驟。EasyMR 針對數據一致性校驗提供了一整套詳細而強大的功能,幫助企業在遷移過程中保證數據的準確性和一致性。
● Schema 採集和表結構對比
· Schema 採集
Schema 採集是指從源集群和目標集群中提取資料庫的結構信息,包括表名、欄位名、欄位類型、索引、約束等。這些信息是進行表結構對比的基礎。
· 表結構對比
在遷移過程中,對比源集群和目標集群的表結構是確保數據一致性的第一步。表結構對比包括以下幾個方面:
1)欄位數量對比:確保源表和目標表的欄位數量一致
2)欄位名稱和類型對比:確保欄位名稱和數據類型一致,避免因類型不匹配導致的數據錯誤
3)索引和約束對比:確保索引和約束在遷移後保持一致,保證數據操作的效率和安全性
● 記錄數採集和記錄數對比
· 記錄數採集
記錄數採集是指統計源集群和目標集群中各表的記錄數量,記錄數的對比可以快速檢測出是否有數據丟失或重覆。
· 記錄數對比
記錄數對比主要是對比源表和目標表中的記錄數量是否一致。記錄數不一致可能表明數據在遷移過程中丟失或重覆,需要進一步的檢查和處理。
● 數值 SUM 採集和數值欄位對比
· 數值 SUM 採集
數值 SUM 採集是對源集群和目標集群中所有數值類型的欄位進行求和操作。通過 SUM值 的對比,可以檢查出數值數據的一致性。
· 數值欄位對比
數值欄位對比是對比源表和目標表中數值欄位的 SUM 值,確保數值數據在遷移後的總和一致。這可以有效地發現數值數據在遷移過程中可能發生的偏差和錯誤。
● 字元 Max 採集和字元欄位對比
· 字元 Max 採集
字元 Max 採集是指對源集群和目標集群中所有字元類型的欄位進行最大值的提取,通過 Max 值的對比,可以檢查出字元數據的一致性。
· 字元欄位對比
字元欄位對比是對比源表和目標表中字元欄位的 Max 值,確保字元數據在遷移後的最大值一致。這可以有效地發現字元數據在遷移過程中可能發生的錯誤和遺漏。
● 抽樣採集和 MD5 對比
· 抽樣採集
從源集群和目標集群中隨機抽取一定數量的數據樣本進行對比。抽樣採集可以提高數據對比的效率,減少全量對比的時間和資源消耗。
· MD5 對比
通過對源集群和目標集群中的數據進行 MD5 哈希計算,將哈希值進行對比,確保數據的一致性。
實時監控與日誌定位
為了幫助用戶及時瞭解遷移進度和處理遷移過程中出現的問題,EasyMR 提供了詳細的頁面查看和日誌記錄功能。
● 遷移任務狀態查看
用戶可以在頁面上實時查看遷移任務的狀態,瞭解遷移進度和結果。
● 遷移日誌記錄和分析
系統會記錄遷移過程中的詳細日誌,用戶可以通過日誌定位和解決遷移過程中出現的問題,確保遷移任務順利完成。
總結
EasyMR 為企業提供安全可靠、彈性伸縮、低成本的大數據存儲與計算服務,同時支持一站式遷移解決方案。遷移流程產品化不僅簡化了操作,還提升了遷移效率和安全性。無論是數據存儲與管理,還是任務調度與控制,EasyMR 都能為企業提供全面支持。
特別是在集群國產化替代方面,EasyMR 通過優化的遷移流程和強大的技術支持,幫助企業順利完成從現有環境到 EasyMR 國產環境的遷移,實現大數據集群的平穩過渡和國產化適配。
《行業指標體系白皮書》下載地址:https://www.dtstack.com/resources/1057?src=szsm
《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm
《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky