由數據遷移至MongoDB導致的數據不一致問題及解決方案

来源:https://www.cnblogs.com/moonhmily/archive/2020/01/10/12175164.html
-Advertisement-
Play Games

數據遷移導致的資料庫數據不一致事件屢見不鮮。如何避免?如何閉坑? ...


在這裡插入圖片描述

故事背景

企業現狀

2019年年初,我接到了一個神秘電話,電話那頭竟然準確的說出了我的昵稱:上海小胖。

我想這事情不簡單,就回了句:您好,我是小胖,請問您是?

“我就是剛剛加了你微信的 xxx 啊”

哦……他只是把我的微信昵稱報出來了……

在這裡插入圖片描述

隨著深入溝通,瞭解到對方是某央企保密單位的大數據部門技術負責人,因為目前整個集團在進行數字化轉型。在決策過程中,遇到了幾個阻力。

首先,大部分部門和科室的數據基礎還很薄弱,存在數據標準混亂、 數據質量層次不齊、各條塊之間數據孤島化嚴重等現象,阻礙了數據的共用應用。

其次,受限於數據規模和數據源種類的豐富程度,多數企業的數據應用剛剛起步,主要集中在精準營銷,輿情感知和風險控制等有限場景,應用深度不夠,應用空間亟待開拓。

再次,由於數據的價值很難評估,企業難以對數據的成本以及其對業務的貢獻進行評估,從而難以像運營有形資產一樣管理數據資產。


而這位技術負責人本著認真、負責、專研的精神,死磕大數據領域,試圖在市面上找到一款能夠滿足他需求的產品,幫助他解決數據痛點。

經過溝通,瞭解到目前的企業數據現狀是:

  • 數據散落在各部門科室,8大部門共50+科室
  • 數據量非常大,高峰期每小時可產生100GB數據,每天存量數據 1TB
  • 數據類型豐富,包括:
    • 關係型資料庫:Oracle,MySQL,PostgreSQL,GBase,GauseDB等
    • 非關係型資料庫:MongoDB
    • 結構化文件:XML,Excel,CSV,TXT
    • 非結構化文件:音頻,視頻,pdf
  • 每個月都會有 5 個新項目,而每次對接新項目都需要花費 1-3個月時間在數據對接上
  • 項目周期長,而大多數時間都在數據冗餘、清洗、過濾上
  • 多副本數據帶來的數據維護成本也在不斷增加,影響了研發進度

考慮遷移

在堅定不移的執行數字化轉型戰略,打贏傳統數據組織轉向大數據生態的攻堅戰中,技術負責人悟出了一個道理,要打贏這場硬仗,必須得做數據整合!

要做數據整合,那不就是傳統數據倉庫和數據湖嗎?在技術負責人經過一番市場調研後發現,數據倉庫和數據湖都無法滿足他心中的未來大數據架構。


那是什麼樣的數據架構無法滿足呢?面嚮應用開發的共用數據

簡而言之就是,數據倉庫和數據湖無法做即時交付,目前的應用場景還是如上文提到的:應用深度不夠,應用空間亟待開拓。

經過幾番調研後,技術負責人找到一款產品Tapdata,用他的原話說就是:“這款產品的理念很先進,可以說和我的想法不謀而合。”

擴展開來說就是:

  • 通過數據同步完成數據匯聚、採集工作
  • 通過數據發佈對外提供數據服務
  • 通過數據治理對數據資產進行有效管理

而最重要的是數據是可被重覆使用,可實時交付的

解決方案

架構

Tapdata 的數據同步工具,只需要簡單的拖拉拽,就可以完成多源資料庫的同步。同時依賴於靈活的 js 腳本能力,對複雜的 ETL 場景也可以非常輕鬆搞定。

那這裡就上一個當時給技術負責人就他們企業現狀做的架構圖,因為本篇文章是在討論數據遷移,所以我就給出數據同步的架構圖。

在這裡插入圖片描述

整個架構採取 mongodb 分片集群作為底層存儲,使用數據同步工具將多源數據實時抽到 mongodb 中,在抽取過程中完成數據清洗、過濾。

技術實現

在使用數據同步工具做數據遷移的時候,需要和用戶溝通具體場景,比如:

  • 本次目標是一次性數據導入,還是需要之後保持增量同步
  • 數據遷移中有沒有複雜的ETL場景
  • 對同步延時要求
  • 同步的數據量預估,高峰預估

在明確目標和需求後,我們採取了多節點分散式採集的方式來滿足應用高峰時產生的數據量,根據當時預估高峰每小時 100GB,一天存量 500GB 計算。

通過數據工具將不同的數據源,通過任務編排的方式進行組合,完成數據清理工作。

用戶本次數據同步要求更多是在數據同步性能及數據量上,對數據的ETL沒有過多的要求,都是一些簡單的欄位重命名,欄位類型轉換

所以通過數據同步工具只需要 1 分鐘即可完成從源端資料庫到目標端 mongodb 的同步工作。


創建數據源

在這裡插入圖片描述
在這裡插入圖片描述

編排任務

在這裡插入圖片描述

和實施前對比

目前上線的數據源有 Oracle、MongoDB、MySQL、PostgreSQL、GBase。資料庫集群數量達到10+套,同時支撐3條完整業務線運作,併發高峰達到 18w/秒。

有效解決了當時阻礙技術負責人執行的最大障礙:大數據量的數據同步工作,及落地後的數據管理。

新增業務時,用戶技術人員只需要做簡單的拖動就可以完成。減少了技術人員的開發工作,幫助技術人員將更多的時間聚焦在核心業務上。極大縮短了項目上線周期。

孤兒文檔

現象

在運行了一段時間後,在一次新應用接入後,發現接入的數據有重覆,通過TD的數據比對工具發現源端 mongo 和目標端 mongodb 在相同表的數據量上確實存在差異。

這個事情對於數據同步工具來說是非常致命的,數據同步最核心的能力就是要保障數據的一致性,而數據同步工具的數據冪等性也是經過中國軟體評測中心的測試認證的。

對於該現象的發生,我們團隊非常重視,如果真是同步工具導致的數據不一致性,那就是致命bug。需要回歸所有功能。

排查

隨機便在第一時間聯繫上用戶技術,並開展了一系列的排查工作。

確認資料庫類型

排查第一步就是確認源端和目標端的資料庫類型和操作系統配置。

本次出現數據重覆的任務涉及到的資料庫情況是:

  • 源端資料庫
    • mongo 3.2
    • 單實例副本集
    • 64c 256GB SAS硬碟
    • 萬兆光纖內網
  • 目標端資料庫
    • mongo 4.0
    • 6分片集群
    • 64c 256GB SAS硬碟
    • 萬兆光纖內網

找出重覆數據

既然有重覆數據,那我們就要先找出這些數據來。

源端資料庫是 mongo,目標端也是 mongo,這就比較好辦了,寫一套 js 腳本即可。這裡會有一個坑,後面會說到,就是分片集群需要去每個節點上查,而不要在 mongos 上查。

腳本很簡單,因為數據同步工具在同步的時候是會根據業務主鍵同步的,所以我就可以在目標端集合中,遍歷每條數據,然後拿著業務主鍵去源端資料庫查詢,比對所有值。

這個過程會很慢,但只能等。

當然要註意的是,由於源端資料庫是單節點,所以理論上應該同步一份數據出來作比對會好些,但是由於該業務還沒上線,所以影響不大。而目標端數據的話是可以通過查找從節點數據進行比對的。

比對結果就是二十幾張表一共 1kw 的數據,有十幾萬重覆。看起來這個重覆的數據量還不少。

這裡我定義的重覆數據就是相同的業務主鍵應該是數據唯一的,但在目標端卻查到不止一條。

檢查數據同步工具日誌

現在有了重覆數據,就可以去數據同步工具日誌里查詢了。

在同步過程中是否有出現數據重覆,或者 ERROR,如果發現有 duplicate key 字樣,那就可以順著這條記錄往下排查。

但很遺憾,在日誌中並沒有發現類似字眼

檢查 mongodb 日誌

數據同步工具日誌無果,轉戰 mongodb 日誌,通過查看 mongodb 日誌,發現有大量的recvChunk 和 moveChunk 日誌

在這裡插入圖片描述

看到這個,我一下子就不困了呀。

我簡單給大家說下這段日誌在幹嘛。因為目標端 mongodb 是分片集群,分片中有一個很重要的概念叫塊移動。分片集群是以數據塊(chunk)為最小單位進行存儲的,預設一個塊可以存儲64MB大小數據。

那這和本次的數據不一致又有什麼關係呢?抖精神的地方來了,mongodb 對於均衡分片的處理方式是:先將 shard 1 節點的 chunk 拷貝到 shard 2 節點去,當 chunk 完全拷貝完成後,在將 shard 1 節點的 chunk 刪了。

那麼在這個轉移的過程中,大家就可以想到,有好幾個環節都會發生意外,從而導致塊遷移失敗。

排查到這裡,就有必要和用戶確認當天的操作流程了。


果不其然,當天其實發生過伺服器斷網,而這個斷網就是在業務剛剛接入的10分鐘後。讓我們來還原案發現場。

用戶開啟同步任務,數據開始按預期向目標端資料庫按規則同步。

同步10分鐘後,機房斷網,此時數據同步任務處於重試階段,mongodb 集群全部斷開網路。

斷開網路期間,mongodb 在進行的塊遷移被迫終止。

一段時間後,網路恢復,數據同步自動重試機制保證用戶無需人工干預,繼續開始同步任務。

mongodb 繼續開始塊遷移。


發現沒有,在第五步的時候,mongodb 的塊遷移並沒有去干預之前塊遷移失敗的結果,其實這麼說不嚴謹,mongodb config server 上記錄的元數據還是認為這個塊在 shard1 上,而已經從 shard 1 節點 copy 到 shard 2 節點的數據並沒有被刪除。因此最終 count 出來的數據就會有大於原來數據總數的情況。

解決

那為瞭解決這個問題,其實官方是有預見的。給出了官方的解決方案。

這裡我幫大家總結好了,執行下麵這段腳本在各個分片節點上。

var nextKey = { };
vard result;

while ( nextKey != null ) {
  result = db.adminCommand( { cleanupOrphaned: "<COLLECTION>", startingFromKey: nextKey } );

  if (result.ok != 1)
     print("Unable to complete at this time: failure or timeout.")

  printjson(result);

  nextKey = result.stoppedAtKey;
}

這段腳本就在做一件事情:找出不屬於 config 節點記錄的數據標識範圍,並將其刪除。

總結

那通過這件事情,查看官方文檔,我們總結了幾點:

在使用數據同步工具遷移數據到 mongodb 分片集群的時候,需要作如下動作

  • 停止平衡器:如何停止平衡器
  • 使用cleanOrphan命令:如何清理孤兒文檔
  • 面對數據不一致性,排查思路可以從資料庫、同步邏輯出發
  • 專業的事交給專業的人做。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • linux學習 看完了基礎篇,下麵來看進階篇 我好想哭看這的時候,好多只是聽說過,但完全沒有試過,感覺自己懂得有點少,就是缺乏一些知識儲備,也就是必須知道了某些或學過了某些知識才適合來看這一部分,看得太早了,不過看看也好,以後再見到就不陌生了。這篇主要就是在linux編寫程式,調試程式,優化性能,這 ...
  • OJ 全名 online judge 線上判題系統,對於從事編程競賽的人來說一點都不陌生,今天我們討論的是怎麼樣自定義搭建 推薦的開源的OJ有hustOJ,JNOJ 因為hustOJ 是一鍵安裝腳本,對於安裝前的要求比較高,所以這一次我們使用jnoj 源代碼和自定義的安裝過程都在 倉庫地址 配置LA ...
  • MRAM是一種以電阻為存儲方式結合非易失性及隨機訪問兩種特性,可以兼做記憶體和硬碟的新型存儲介質。寫入速度可達NAND快閃記憶體的數千倍,此外,其製作工藝要求低,良品率高,可以很好的控製成本。在壽命方面,由於MRAM特殊的存儲方式,產品的壽命耐久性也遠超傳統RAM。大規模普及仍面臨挑戰 毫無疑問,MRAM因 ...
  • 學習使用linux 偶然間看到一篇介紹linux的使用,於是看了看,整體看完,雖然看的有些懵✒,但還是堅持看完了基礎部分,並做了一些摘要。 man頁面所屬的分類標識 常用的是分類1和分類3 (1)、用戶可以操作的命令或者是可執行文件 (2)、系統核心可調用的函數與工具等 (3)、一些常用的函數與數據 ...
  • Linux的預設管理員名即是root,只需要知道ROOT密碼即可直接登錄SSH。禁止Root從SSH直接登錄可以提高伺服器安全性。經過以下操作後即可實現。本文適用於CentOS、Debian等Linux系統。 新建用戶 配置密碼 配置不允許root用戶直接登錄 修改相關文件 禁止root登陸 重啟s ...
  • 前言:學習的課程來自極客時間的專欄《趣談 Linux 操作系統》,作者用形象化的比喻和豐富的圖片讓課程變得比較易懂,為了避免知識看過就忘,打算通過寫學習筆記的形式記錄自己的學習過程。Linux 系統的相關介紹不再贅述,目前比較熱門的技術,比如雲計算、虛擬化、容器、大數據、人工智慧,幾乎都是基於 Li ...
  • 數據定義 資料庫 表 擴展 函數 索引 許可權控制 運行分析 運行維護 配置 備份還原 其他 時間處理 psql ...
  • 圖的基本概念 首先,你要明確圖是什麼樣子的,就是下麵這個樣子的 圖的定義與術語 有向圖和無向圖 直接對比圖就可以看出來,有向圖和無向圖的區別了,這個沒有什麼難的。 有向圖和無向圖的表示法有略微的區別,註意看 G1有箭頭,有向圖,表示方法是 G2無箭頭,無向圖,表示方法是 弧、弧頭、弧尾:有向圖的邊稱 ...
一周排行
    -Advertisement-
    Play Games
  • 基於.NET Framework 4.8 開發的深度學習模型部署測試平臺,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det、Seg、Pose、Obb、Cls等應用場景,同時支持圖像與視頻檢測。模型部署引擎使用的是OpenVINO™、TensorRT、ONNX runti... ...
  • 十年沉澱,重啟開發之路 十年前,我沉浸在開發的海洋中,每日與代碼為伍,與演算法共舞。那時的我,滿懷激情,對技術的追求近乎狂熱。然而,隨著歲月的流逝,生活的忙碌逐漸占據了我的大部分時間,讓我無暇顧及技術的沉澱與積累。 十年間,我經歷了職業生涯的起伏和變遷。從初出茅廬的菜鳥到逐漸嶄露頭角的開發者,我見證了 ...
  • C# 是一種簡單、現代、面向對象和類型安全的編程語言。.NET 是由 Microsoft 創建的開發平臺,平臺包含了語言規範、工具、運行,支持開發各種應用,如Web、移動、桌面等。.NET框架有多個實現,如.NET Framework、.NET Core(及後續的.NET 5+版本),以及社區版本M... ...
  • 前言 本文介紹瞭如何使用三菱提供的MX Component插件實現對三菱PLC軟元件數據的讀寫,記錄了使用電腦模擬,模擬PLC,直至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1. PLC開發編程環境GX Works2,GX Works2下載鏈接 https:// ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • 1、jQuery介紹 jQuery是什麼 jQuery是一個快速、簡潔的JavaScript框架,是繼Prototype之後又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“write Less,Do More”,即倡導寫更少的代碼,做更多的事情。它封裝 ...
  • 前言 之前的文章把js引擎(aardio封裝庫) 微軟開源的js引擎(ChakraCore))寫好了,這篇文章整點js代碼來測一下bug。測試網站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻譯js逆向(MD5加密,AES加密)附完整源碼 ...
  • 引言 現代的操作系統(Windows,Linux,Mac OS)等都可以同時打開多個軟體(任務),這些軟體在我們的感知上是同時運行的,例如我們可以一邊瀏覽網頁,一邊聽音樂。而CPU執行代碼同一時間只能執行一條,但即使我們的電腦是單核CPU也可以同時運行多個任務,如下圖所示,這是因為我們的 CPU 的 ...
  • 掌握使用Python進行文本英文統計的基本方法,並瞭解如何進一步優化和擴展這些方法,以應對更複雜的文本分析任務。 ...
  • 背景 Redis多數據源常見的場景: 分區數據處理:當數據量增長時,單個Redis實例可能無法處理所有的數據。通過使用多個Redis數據源,可以將數據分區存儲在不同的實例中,使得數據處理更加高效。 多租戶應用程式:對於多租戶應用程式,每個租戶可以擁有自己的Redis數據源,以確保數據隔離和安全性。 ...