由數據遷移至MongoDB導致的數據不一致問題及解決方案

来源:https://www.cnblogs.com/moonhmily/archive/2020/01/10/12175164.html
-Advertisement-
Play Games

數據遷移導致的資料庫數據不一致事件屢見不鮮。如何避免?如何閉坑? ...


在這裡插入圖片描述

故事背景

企業現狀

2019年年初,我接到了一個神秘電話,電話那頭竟然準確的說出了我的昵稱:上海小胖。

我想這事情不簡單,就回了句:您好,我是小胖,請問您是?

“我就是剛剛加了你微信的 xxx 啊”

哦……他只是把我的微信昵稱報出來了……

在這裡插入圖片描述

隨著深入溝通,瞭解到對方是某央企保密單位的大數據部門技術負責人,因為目前整個集團在進行數字化轉型。在決策過程中,遇到了幾個阻力。

首先,大部分部門和科室的數據基礎還很薄弱,存在數據標準混亂、 數據質量層次不齊、各條塊之間數據孤島化嚴重等現象,阻礙了數據的共用應用。

其次,受限於數據規模和數據源種類的豐富程度,多數企業的數據應用剛剛起步,主要集中在精準營銷,輿情感知和風險控制等有限場景,應用深度不夠,應用空間亟待開拓。

再次,由於數據的價值很難評估,企業難以對數據的成本以及其對業務的貢獻進行評估,從而難以像運營有形資產一樣管理數據資產。


而這位技術負責人本著認真、負責、專研的精神,死磕大數據領域,試圖在市面上找到一款能夠滿足他需求的產品,幫助他解決數據痛點。

經過溝通,瞭解到目前的企業數據現狀是:

  • 數據散落在各部門科室,8大部門共50+科室
  • 數據量非常大,高峰期每小時可產生100GB數據,每天存量數據 1TB
  • 數據類型豐富,包括:
    • 關係型資料庫:Oracle,MySQL,PostgreSQL,GBase,GauseDB等
    • 非關係型資料庫:MongoDB
    • 結構化文件:XML,Excel,CSV,TXT
    • 非結構化文件:音頻,視頻,pdf
  • 每個月都會有 5 個新項目,而每次對接新項目都需要花費 1-3個月時間在數據對接上
  • 項目周期長,而大多數時間都在數據冗餘、清洗、過濾上
  • 多副本數據帶來的數據維護成本也在不斷增加,影響了研發進度

考慮遷移

在堅定不移的執行數字化轉型戰略,打贏傳統數據組織轉向大數據生態的攻堅戰中,技術負責人悟出了一個道理,要打贏這場硬仗,必須得做數據整合!

要做數據整合,那不就是傳統數據倉庫和數據湖嗎?在技術負責人經過一番市場調研後發現,數據倉庫和數據湖都無法滿足他心中的未來大數據架構。


那是什麼樣的數據架構無法滿足呢?面嚮應用開發的共用數據

簡而言之就是,數據倉庫和數據湖無法做即時交付,目前的應用場景還是如上文提到的:應用深度不夠,應用空間亟待開拓。

經過幾番調研後,技術負責人找到一款產品Tapdata,用他的原話說就是:“這款產品的理念很先進,可以說和我的想法不謀而合。”

擴展開來說就是:

  • 通過數據同步完成數據匯聚、採集工作
  • 通過數據發佈對外提供數據服務
  • 通過數據治理對數據資產進行有效管理

而最重要的是數據是可被重覆使用,可實時交付的

解決方案

架構

Tapdata 的數據同步工具,只需要簡單的拖拉拽,就可以完成多源資料庫的同步。同時依賴於靈活的 js 腳本能力,對複雜的 ETL 場景也可以非常輕鬆搞定。

那這裡就上一個當時給技術負責人就他們企業現狀做的架構圖,因為本篇文章是在討論數據遷移,所以我就給出數據同步的架構圖。

在這裡插入圖片描述

整個架構採取 mongodb 分片集群作為底層存儲,使用數據同步工具將多源數據實時抽到 mongodb 中,在抽取過程中完成數據清洗、過濾。

技術實現

在使用數據同步工具做數據遷移的時候,需要和用戶溝通具體場景,比如:

  • 本次目標是一次性數據導入,還是需要之後保持增量同步
  • 數據遷移中有沒有複雜的ETL場景
  • 對同步延時要求
  • 同步的數據量預估,高峰預估

在明確目標和需求後,我們採取了多節點分散式採集的方式來滿足應用高峰時產生的數據量,根據當時預估高峰每小時 100GB,一天存量 500GB 計算。

通過數據工具將不同的數據源,通過任務編排的方式進行組合,完成數據清理工作。

用戶本次數據同步要求更多是在數據同步性能及數據量上,對數據的ETL沒有過多的要求,都是一些簡單的欄位重命名,欄位類型轉換

所以通過數據同步工具只需要 1 分鐘即可完成從源端資料庫到目標端 mongodb 的同步工作。


創建數據源

在這裡插入圖片描述
在這裡插入圖片描述

編排任務

在這裡插入圖片描述

和實施前對比

目前上線的數據源有 Oracle、MongoDB、MySQL、PostgreSQL、GBase。資料庫集群數量達到10+套,同時支撐3條完整業務線運作,併發高峰達到 18w/秒。

有效解決了當時阻礙技術負責人執行的最大障礙:大數據量的數據同步工作,及落地後的數據管理。

新增業務時,用戶技術人員只需要做簡單的拖動就可以完成。減少了技術人員的開發工作,幫助技術人員將更多的時間聚焦在核心業務上。極大縮短了項目上線周期。

孤兒文檔

現象

在運行了一段時間後,在一次新應用接入後,發現接入的數據有重覆,通過TD的數據比對工具發現源端 mongo 和目標端 mongodb 在相同表的數據量上確實存在差異。

這個事情對於數據同步工具來說是非常致命的,數據同步最核心的能力就是要保障數據的一致性,而數據同步工具的數據冪等性也是經過中國軟體評測中心的測試認證的。

對於該現象的發生,我們團隊非常重視,如果真是同步工具導致的數據不一致性,那就是致命bug。需要回歸所有功能。

排查

隨機便在第一時間聯繫上用戶技術,並開展了一系列的排查工作。

確認資料庫類型

排查第一步就是確認源端和目標端的資料庫類型和操作系統配置。

本次出現數據重覆的任務涉及到的資料庫情況是:

  • 源端資料庫
    • mongo 3.2
    • 單實例副本集
    • 64c 256GB SAS硬碟
    • 萬兆光纖內網
  • 目標端資料庫
    • mongo 4.0
    • 6分片集群
    • 64c 256GB SAS硬碟
    • 萬兆光纖內網

找出重覆數據

既然有重覆數據,那我們就要先找出這些數據來。

源端資料庫是 mongo,目標端也是 mongo,這就比較好辦了,寫一套 js 腳本即可。這裡會有一個坑,後面會說到,就是分片集群需要去每個節點上查,而不要在 mongos 上查。

腳本很簡單,因為數據同步工具在同步的時候是會根據業務主鍵同步的,所以我就可以在目標端集合中,遍歷每條數據,然後拿著業務主鍵去源端資料庫查詢,比對所有值。

這個過程會很慢,但只能等。

當然要註意的是,由於源端資料庫是單節點,所以理論上應該同步一份數據出來作比對會好些,但是由於該業務還沒上線,所以影響不大。而目標端數據的話是可以通過查找從節點數據進行比對的。

比對結果就是二十幾張表一共 1kw 的數據,有十幾萬重覆。看起來這個重覆的數據量還不少。

這裡我定義的重覆數據就是相同的業務主鍵應該是數據唯一的,但在目標端卻查到不止一條。

檢查數據同步工具日誌

現在有了重覆數據,就可以去數據同步工具日誌里查詢了。

在同步過程中是否有出現數據重覆,或者 ERROR,如果發現有 duplicate key 字樣,那就可以順著這條記錄往下排查。

但很遺憾,在日誌中並沒有發現類似字眼

檢查 mongodb 日誌

數據同步工具日誌無果,轉戰 mongodb 日誌,通過查看 mongodb 日誌,發現有大量的recvChunk 和 moveChunk 日誌

在這裡插入圖片描述

看到這個,我一下子就不困了呀。

我簡單給大家說下這段日誌在幹嘛。因為目標端 mongodb 是分片集群,分片中有一個很重要的概念叫塊移動。分片集群是以數據塊(chunk)為最小單位進行存儲的,預設一個塊可以存儲64MB大小數據。

那這和本次的數據不一致又有什麼關係呢?抖精神的地方來了,mongodb 對於均衡分片的處理方式是:先將 shard 1 節點的 chunk 拷貝到 shard 2 節點去,當 chunk 完全拷貝完成後,在將 shard 1 節點的 chunk 刪了。

那麼在這個轉移的過程中,大家就可以想到,有好幾個環節都會發生意外,從而導致塊遷移失敗。

排查到這裡,就有必要和用戶確認當天的操作流程了。


果不其然,當天其實發生過伺服器斷網,而這個斷網就是在業務剛剛接入的10分鐘後。讓我們來還原案發現場。

用戶開啟同步任務,數據開始按預期向目標端資料庫按規則同步。

同步10分鐘後,機房斷網,此時數據同步任務處於重試階段,mongodb 集群全部斷開網路。

斷開網路期間,mongodb 在進行的塊遷移被迫終止。

一段時間後,網路恢復,數據同步自動重試機制保證用戶無需人工干預,繼續開始同步任務。

mongodb 繼續開始塊遷移。


發現沒有,在第五步的時候,mongodb 的塊遷移並沒有去干預之前塊遷移失敗的結果,其實這麼說不嚴謹,mongodb config server 上記錄的元數據還是認為這個塊在 shard1 上,而已經從 shard 1 節點 copy 到 shard 2 節點的數據並沒有被刪除。因此最終 count 出來的數據就會有大於原來數據總數的情況。

解決

那為瞭解決這個問題,其實官方是有預見的。給出了官方的解決方案。

這裡我幫大家總結好了,執行下麵這段腳本在各個分片節點上。

var nextKey = { };
vard result;

while ( nextKey != null ) {
  result = db.adminCommand( { cleanupOrphaned: "<COLLECTION>", startingFromKey: nextKey } );

  if (result.ok != 1)
     print("Unable to complete at this time: failure or timeout.")

  printjson(result);

  nextKey = result.stoppedAtKey;
}

這段腳本就在做一件事情:找出不屬於 config 節點記錄的數據標識範圍,並將其刪除。

總結

那通過這件事情,查看官方文檔,我們總結了幾點:

在使用數據同步工具遷移數據到 mongodb 分片集群的時候,需要作如下動作

  • 停止平衡器:如何停止平衡器
  • 使用cleanOrphan命令:如何清理孤兒文檔
  • 面對數據不一致性,排查思路可以從資料庫、同步邏輯出發
  • 專業的事交給專業的人做。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • linux學習 看完了基礎篇,下麵來看進階篇 我好想哭看這的時候,好多只是聽說過,但完全沒有試過,感覺自己懂得有點少,就是缺乏一些知識儲備,也就是必須知道了某些或學過了某些知識才適合來看這一部分,看得太早了,不過看看也好,以後再見到就不陌生了。這篇主要就是在linux編寫程式,調試程式,優化性能,這 ...
  • OJ 全名 online judge 線上判題系統,對於從事編程競賽的人來說一點都不陌生,今天我們討論的是怎麼樣自定義搭建 推薦的開源的OJ有hustOJ,JNOJ 因為hustOJ 是一鍵安裝腳本,對於安裝前的要求比較高,所以這一次我們使用jnoj 源代碼和自定義的安裝過程都在 倉庫地址 配置LA ...
  • MRAM是一種以電阻為存儲方式結合非易失性及隨機訪問兩種特性,可以兼做記憶體和硬碟的新型存儲介質。寫入速度可達NAND快閃記憶體的數千倍,此外,其製作工藝要求低,良品率高,可以很好的控製成本。在壽命方面,由於MRAM特殊的存儲方式,產品的壽命耐久性也遠超傳統RAM。大規模普及仍面臨挑戰 毫無疑問,MRAM因 ...
  • 學習使用linux 偶然間看到一篇介紹linux的使用,於是看了看,整體看完,雖然看的有些懵✒,但還是堅持看完了基礎部分,並做了一些摘要。 man頁面所屬的分類標識 常用的是分類1和分類3 (1)、用戶可以操作的命令或者是可執行文件 (2)、系統核心可調用的函數與工具等 (3)、一些常用的函數與數據 ...
  • Linux的預設管理員名即是root,只需要知道ROOT密碼即可直接登錄SSH。禁止Root從SSH直接登錄可以提高伺服器安全性。經過以下操作後即可實現。本文適用於CentOS、Debian等Linux系統。 新建用戶 配置密碼 配置不允許root用戶直接登錄 修改相關文件 禁止root登陸 重啟s ...
  • 前言:學習的課程來自極客時間的專欄《趣談 Linux 操作系統》,作者用形象化的比喻和豐富的圖片讓課程變得比較易懂,為了避免知識看過就忘,打算通過寫學習筆記的形式記錄自己的學習過程。Linux 系統的相關介紹不再贅述,目前比較熱門的技術,比如雲計算、虛擬化、容器、大數據、人工智慧,幾乎都是基於 Li ...
  • 數據定義 資料庫 表 擴展 函數 索引 許可權控制 運行分析 運行維護 配置 備份還原 其他 時間處理 psql ...
  • 圖的基本概念 首先,你要明確圖是什麼樣子的,就是下麵這個樣子的 圖的定義與術語 有向圖和無向圖 直接對比圖就可以看出來,有向圖和無向圖的區別了,這個沒有什麼難的。 有向圖和無向圖的表示法有略微的區別,註意看 G1有箭頭,有向圖,表示方法是 G2無箭頭,無向圖,表示方法是 弧、弧頭、弧尾:有向圖的邊稱 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...