由數據遷移至MongoDB導致的數據不一致問題及解決方案

来源:https://www.cnblogs.com/moonhmily/archive/2020/01/10/12175164.html

數據遷移導致的資料庫數據不一致事件屢見不鮮。如何避免?如何閉坑? ...


在這裡插入圖片描述

故事背景

企業現狀

2019年年初,我接到了一個神秘電話,電話那頭竟然準確的說出了我的昵稱:上海小胖。

我想這事情不簡單,就回了句:您好,我是小胖,請問您是?

“我就是剛剛加了你微信的 xxx 啊”

哦……他只是把我的微信昵稱報出來了……

在這裡插入圖片描述

隨著深入溝通,瞭解到對方是某央企保密單位的大數據部門技術負責人,因為目前整個集團在進行數字化轉型。在決策過程中,遇到了幾個阻力。

首先,大部分部門和科室的數據基礎還很薄弱,存在數據標準混亂、 數據質量層次不齊、各條塊之間數據孤島化嚴重等現象,阻礙了數據的共用應用。

其次,受限於數據規模和數據源種類的豐富程度,多數企業的數據應用剛剛起步,主要集中在精準營銷,輿情感知和風險控制等有限場景,應用深度不夠,應用空間亟待開拓。

再次,由於數據的價值很難評估,企業難以對數據的成本以及其對業務的貢獻進行評估,從而難以像運營有形資產一樣管理數據資產。


而這位技術負責人本著認真、負責、專研的精神,死磕大數據領域,試圖在市面上找到一款能夠滿足他需求的產品,幫助他解決數據痛點。

經過溝通,瞭解到目前的企業數據現狀是:

  • 數據散落在各部門科室,8大部門共50+科室
  • 數據量非常大,高峰期每小時可產生100GB數據,每天存量數據 1TB
  • 數據類型豐富,包括:
    • 關係型資料庫:Oracle,MySQL,PostgreSQL,GBase,GauseDB等
    • 非關係型資料庫:MongoDB
    • 結構化文件:XML,Excel,CSV,TXT
    • 非結構化文件:音頻,視頻,pdf
  • 每個月都會有 5 個新項目,而每次對接新項目都需要花費 1-3個月時間在數據對接上
  • 項目周期長,而大多數時間都在數據冗餘、清洗、過濾上
  • 多副本數據帶來的數據維護成本也在不斷增加,影響了研發進度

考慮遷移

在堅定不移的執行數字化轉型戰略,打贏傳統數據組織轉向大數據生態的攻堅戰中,技術負責人悟出了一個道理,要打贏這場硬仗,必須得做數據整合!

要做數據整合,那不就是傳統數據倉庫和數據湖嗎?在技術負責人經過一番市場調研後發現,數據倉庫和數據湖都無法滿足他心中的未來大數據架構。


那是什麼樣的數據架構無法滿足呢?面嚮應用開發的共用數據

簡而言之就是,數據倉庫和數據湖無法做即時交付,目前的應用場景還是如上文提到的:應用深度不夠,應用空間亟待開拓。

經過幾番調研後,技術負責人找到一款產品Tapdata,用他的原話說就是:“這款產品的理念很先進,可以說和我的想法不謀而合。”

擴展開來說就是:

  • 通過數據同步完成數據匯聚、採集工作
  • 通過數據發佈對外提供數據服務
  • 通過數據治理對數據資產進行有效管理

而最重要的是數據是可被重覆使用,可實時交付的

解決方案

架構

Tapdata 的數據同步工具,只需要簡單的拖拉拽,就可以完成多源資料庫的同步。同時依賴於靈活的 js 腳本能力,對複雜的 ETL 場景也可以非常輕鬆搞定。

那這裡就上一個當時給技術負責人就他們企業現狀做的架構圖,因為本篇文章是在討論數據遷移,所以我就給出數據同步的架構圖。

在這裡插入圖片描述

整個架構採取 mongodb 分片集群作為底層存儲,使用數據同步工具將多源數據實時抽到 mongodb 中,在抽取過程中完成數據清洗、過濾。

技術實現

在使用數據同步工具做數據遷移的時候,需要和用戶溝通具體場景,比如:

  • 本次目標是一次性數據導入,還是需要之後保持增量同步
  • 數據遷移中有沒有複雜的ETL場景
  • 對同步延時要求
  • 同步的數據量預估,高峰預估

在明確目標和需求後,我們採取了多節點分散式採集的方式來滿足應用高峰時產生的數據量,根據當時預估高峰每小時 100GB,一天存量 500GB 計算。

通過數據工具將不同的數據源,通過任務編排的方式進行組合,完成數據清理工作。

用戶本次數據同步要求更多是在數據同步性能及數據量上,對數據的ETL沒有過多的要求,都是一些簡單的欄位重命名,欄位類型轉換

所以通過數據同步工具只需要 1 分鐘即可完成從源端資料庫到目標端 mongodb 的同步工作。


創建數據源

在這裡插入圖片描述
在這裡插入圖片描述

編排任務

在這裡插入圖片描述

和實施前對比

目前上線的數據源有 Oracle、MongoDB、MySQL、PostgreSQL、GBase。資料庫集群數量達到10+套,同時支撐3條完整業務線運作,併發高峰達到 18w/秒。

有效解決了當時阻礙技術負責人執行的最大障礙:大數據量的數據同步工作,及落地後的數據管理。

新增業務時,用戶技術人員只需要做簡單的拖動就可以完成。減少了技術人員的開發工作,幫助技術人員將更多的時間聚焦在核心業務上。極大縮短了項目上線周期。

孤兒文檔

現象

在運行了一段時間後,在一次新應用接入後,發現接入的數據有重覆,通過TD的數據比對工具發現源端 mongo 和目標端 mongodb 在相同表的數據量上確實存在差異。

這個事情對於數據同步工具來說是非常致命的,數據同步最核心的能力就是要保障數據的一致性,而數據同步工具的數據冪等性也是經過中國軟體評測中心的測試認證的。

對於該現象的發生,我們團隊非常重視,如果真是同步工具導致的數據不一致性,那就是致命bug。需要回歸所有功能。

排查

隨機便在第一時間聯繫上用戶技術,並開展了一系列的排查工作。

確認資料庫類型

排查第一步就是確認源端和目標端的資料庫類型和操作系統配置。

本次出現數據重覆的任務涉及到的資料庫情況是:

  • 源端資料庫
    • mongo 3.2
    • 單實例副本集
    • 64c 256GB SAS硬碟
    • 萬兆光纖內網
  • 目標端資料庫
    • mongo 4.0
    • 6分片集群
    • 64c 256GB SAS硬碟
    • 萬兆光纖內網

找出重覆數據

既然有重覆數據,那我們就要先找出這些數據來。

源端資料庫是 mongo,目標端也是 mongo,這就比較好辦了,寫一套 js 腳本即可。這裡會有一個坑,後面會說到,就是分片集群需要去每個節點上查,而不要在 mongos 上查。

腳本很簡單,因為數據同步工具在同步的時候是會根據業務主鍵同步的,所以我就可以在目標端集合中,遍歷每條數據,然後拿著業務主鍵去源端資料庫查詢,比對所有值。

這個過程會很慢,但只能等。

當然要註意的是,由於源端資料庫是單節點,所以理論上應該同步一份數據出來作比對會好些,但是由於該業務還沒上線,所以影響不大。而目標端數據的話是可以通過查找從節點數據進行比對的。

比對結果就是二十幾張表一共 1kw 的數據,有十幾萬重覆。看起來這個重覆的數據量還不少。

這裡我定義的重覆數據就是相同的業務主鍵應該是數據唯一的,但在目標端卻查到不止一條。

檢查數據同步工具日誌

現在有了重覆數據,就可以去數據同步工具日誌里查詢了。

在同步過程中是否有出現數據重覆,或者 ERROR,如果發現有 duplicate key 字樣,那就可以順著這條記錄往下排查。

但很遺憾,在日誌中並沒有發現類似字眼

檢查 mongodb 日誌

數據同步工具日誌無果,轉戰 mongodb 日誌,通過查看 mongodb 日誌,發現有大量的recvChunk 和 moveChunk 日誌

在這裡插入圖片描述

看到這個,我一下子就不困了呀。

我簡單給大家說下這段日誌在幹嘛。因為目標端 mongodb 是分片集群,分片中有一個很重要的概念叫塊移動。分片集群是以數據塊(chunk)為最小單位進行存儲的,預設一個塊可以存儲64MB大小數據。

那這和本次的數據不一致又有什麼關係呢?抖精神的地方來了,mongodb 對於均衡分片的處理方式是:先將 shard 1 節點的 chunk 拷貝到 shard 2 節點去,當 chunk 完全拷貝完成後,在將 shard 1 節點的 chunk 刪了。

那麼在這個轉移的過程中,大家就可以想到,有好幾個環節都會發生意外,從而導致塊遷移失敗。

排查到這裡,就有必要和用戶確認當天的操作流程了。


果不其然,當天其實發生過伺服器斷網,而這個斷網就是在業務剛剛接入的10分鐘後。讓我們來還原案發現場。

用戶開啟同步任務,數據開始按預期向目標端資料庫按規則同步。

同步10分鐘後,機房斷網,此時數據同步任務處於重試階段,mongodb 集群全部斷開網路。

斷開網路期間,mongodb 在進行的塊遷移被迫終止。

一段時間後,網路恢復,數據同步自動重試機制保證用戶無需人工干預,繼續開始同步任務。

mongodb 繼續開始塊遷移。


發現沒有,在第五步的時候,mongodb 的塊遷移並沒有去干預之前塊遷移失敗的結果,其實這麼說不嚴謹,mongodb config server 上記錄的元數據還是認為這個塊在 shard1 上,而已經從 shard 1 節點 copy 到 shard 2 節點的數據並沒有被刪除。因此最終 count 出來的數據就會有大於原來數據總數的情況。

解決

那為瞭解決這個問題,其實官方是有預見的。給出了官方的解決方案。

這裡我幫大家總結好了,執行下麵這段腳本在各個分片節點上。

var nextKey = { };
vard result;

while ( nextKey != null ) {
  result = db.adminCommand( { cleanupOrphaned: "<COLLECTION>", startingFromKey: nextKey } );

  if (result.ok != 1)
     print("Unable to complete at this time: failure or timeout.")

  printjson(result);

  nextKey = result.stoppedAtKey;
}

這段腳本就在做一件事情:找出不屬於 config 節點記錄的數據標識範圍,並將其刪除。

總結

那通過這件事情,查看官方文檔,我們總結了幾點:

在使用數據同步工具遷移數據到 mongodb 分片集群的時候,需要作如下動作

  • 停止平衡器:如何停止平衡器
  • 使用cleanOrphan命令:如何清理孤兒文檔
  • 面對數據不一致性,排查思路可以從資料庫、同步邏輯出發
  • 專業的事交給專業的人做。

您的分享是我們最大的動力!

更多相關文章
  • linux學習 看完了基礎篇,下麵來看進階篇 我好想哭看這的時候,好多只是聽說過,但完全沒有試過,感覺自己懂得有點少,就是缺乏一些知識儲備,也就是必須知道了某些或學過了某些知識才適合來看這一部分,看得太早了,不過看看也好,以後再見到就不陌生了。這篇主要就是在linux編寫程式,調試程式,優化性能,這 ...
  • OJ 全名 online judge 線上判題系統,對於從事編程競賽的人來說一點都不陌生,今天我們討論的是怎麼樣自定義搭建 推薦的開源的OJ有hustOJ,JNOJ 因為hustOJ 是一鍵安裝腳本,對於安裝前的要求比較高,所以這一次我們使用jnoj 源代碼和自定義的安裝過程都在 倉庫地址 配置LA ...
  • MRAM是一種以電阻為存儲方式結合非易失性及隨機訪問兩種特性,可以兼做記憶體和硬碟的新型存儲介質。寫入速度可達NAND快閃記憶體的數千倍,此外,其製作工藝要求低,良品率高,可以很好的控製成本。在壽命方面,由於MRAM特殊的存儲方式,產品的壽命耐久性也遠超傳統RAM。大規模普及仍面臨挑戰 毫無疑問,MRAM因 ...
  • 學習使用linux 偶然間看到一篇介紹linux的使用,於是看了看,整體看完,雖然看的有些懵✒,但還是堅持看完了基礎部分,並做了一些摘要。 man頁面所屬的分類標識 常用的是分類1和分類3 (1)、用戶可以操作的命令或者是可執行文件 (2)、系統核心可調用的函數與工具等 (3)、一些常用的函數與數據 ...
  • Linux的預設管理員名即是root,只需要知道ROOT密碼即可直接登錄SSH。禁止Root從SSH直接登錄可以提高伺服器安全性。經過以下操作後即可實現。本文適用於CentOS、Debian等Linux系統。 新建用戶 配置密碼 配置不允許root用戶直接登錄 修改相關文件 禁止root登陸 重啟s ...
  • 前言:學習的課程來自極客時間的專欄《趣談 Linux 操作系統》,作者用形象化的比喻和豐富的圖片讓課程變得比較易懂,為了避免知識看過就忘,打算通過寫學習筆記的形式記錄自己的學習過程。Linux 系統的相關介紹不再贅述,目前比較熱門的技術,比如雲計算、虛擬化、容器、大數據、人工智慧,幾乎都是基於 Li ...
  • 數據定義 資料庫 表 擴展 函數 索引 許可權控制 運行分析 運行維護 配置 備份還原 其他 時間處理 psql ...
  • 圖的基本概念 首先,你要明確圖是什麼樣子的,就是下麵這個樣子的 圖的定義與術語 有向圖和無向圖 直接對比圖就可以看出來,有向圖和無向圖的區別了,這個沒有什麼難的。 有向圖和無向圖的表示法有略微的區別,註意看 G1有箭頭,有向圖,表示方法是 G2無箭頭,無向圖,表示方法是 弧、弧頭、弧尾:有向圖的邊稱 ...
一周排行
  • 比如要拆分“呵呵呵90909086676喝喝999”,下麵當type=0返回的是中文字元串“呵呵呵,喝喝”,type=1返回的是數字字元串“90909086676,999”, private string GetStrings(string str,int type=0) { IList<strin ...
  • Swagger一個優秀的Api介面文檔生成工具。Swagger可以可以動態生成Api介面文檔,有效的降低前後端人員關於Api介面的溝通成本,促進項目高效開發。 1、使用NuGet安裝最新的包:Swashbuckle.AspNetCore。 2、編輯項目文件(NetCoreTemplate.Web.c ...
  • 2020 年 7 月 30 日, 由.NET基金會和微軟 將舉辦一個線上和為期一天的活動,包括 微軟 .NET 團隊的演講者以及社區的演講者。本次線上大會 專註.NET框架構建微服務,演講者分享構建和部署雲原生應用程式的最佳實踐、模式、提示和技巧。有關更多信息和隨時瞭解情況:https://focu... ...
  • #abp框架Excel導出——基於vue #1.技術棧 ##1.1 前端採用vue,官方提供 UI套件用的是iview ##1.2 後臺是abp——aspnetboilerplate 即abp v1,https://github.com/aspnetboilerplate/aspnetboilerp ...
  • 前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 作者:碧茂大數據 PS:如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取 input()輸入 Python提供了 input() 內置函數從標準輸入讀入一 ...
  • 從12年到20年,python以肉眼可見的趨勢超過了java,成為了當今It界人人皆知的編程語言。 python為什麼這麼火? 網路編程語言搜索指數 適合初學者 Python具有語法簡單、語句清晰的特點,這就讓初學者在學習階段可以把精力集中在編程對象和思維方法上。 大佬都在用 Google,YouT ...
  • 在社會上存在一種普遍的對培訓機構的學生一種歧視的現象,具體表現在,比如:當你去公司面試的時候,一旦你說了你是培訓機構出來的,那麼基本上你就涼了,那麼你瞞著不說,然後又通過了面試成功入職,但是以後一旦在公司被髮現有培訓經歷,可能會面臨被降薪,甚至被辭退,培訓機構出來的學生,在用人單位眼裡就是能力低下的 ...
  • from typing import List# 這道題看了大佬寫的代碼,經過自己的理解寫出來了。# 從最外圍的四周找有沒有為O的,如果有的話就進入深搜函數,然後深搜遍歷# 判斷上下左右的位置是否為Oclass Solution: def solve(self, board: List[List[s ...
  • import requests; import re; import os; # 1.請求網頁 header = { "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, li ...
  • import requests; import re; import os; import parsel; 1.請求網頁 header = { "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537. ...