PostgreSQL邏輯複製解密

来源:https://www.cnblogs.com/Jcloud/archive/2022/09/21/16714652.html
-Advertisement-
Play Games

在數字化時代的今天,我們都認同數據會創造價值。為了最大化數據的價值,我們不停的建立著數據遷移的管道,從同構到異構,從關係型到非關係型,從雲下到雲上,從數倉到數據湖,試圖在各種場景挖掘數據的價值。而在這縱橫交錯的數據網路中,邏輯複製扮演著及其重要的角色。 讓我們將視角從複雜的網路拉回其中的一個端點,... ...


在數字化時代的今天,我們都認同數據會創造價值。為了最大化數據的價值,我們不停的建立著數據遷移的管道,從同構到異構,從關係型到非關係型,從雲下到雲上,從數倉到數據湖,試圖在各種場景挖掘數據的價值。而在這縱橫交錯的數據網路中,邏輯複製扮演著及其重要的角色。

讓我們將視角從複雜的網路拉回其中的一個端點,從PostgreSQL出發,對其邏輯複製的原理進行解密。

1 概念與原理

邏輯複製,是基於複製標識複製數據及其變化的一種方法。區別於物理複製對頁面操作的描述,邏輯複製是對事務及數據元組的一種描述。

圖-WAL數據流示例

如圖所示,物理複製的數據流是對tablespace/database/filenode文件的塊進行操作,而邏輯複製的內容是對元組進行描述。

接下來我們來看邏輯複製中的幾個概念:

複製槽

複製槽是記錄複製狀態的一組信息。由於WAL(預寫式日誌)文件在數據真正落盤後會刪除,複製槽會防止過早清理邏輯複製解析所需的WAL日誌。在邏輯複製中,每個插槽從單個資料庫流式傳輸一系列更改,創建複製槽需要指定其使用的輸出插件,同時創建複製槽時會提供一個快照。

輸出插件

輸出插件負責將WAL日誌解碼為可讀的格式,常用的插件用test_decoding(多用來測試),pgoutput(預設使用),wal2json(輸出為json)。PostgreSQL定義了一系列回調函數,我們除了使用上述插件,可以通過回調函數編寫自己的輸出插件。

圖-複製槽數據流

複製協議與消息

通過複製協議,我們可以從源端獲取WAL數據流。例如通過PSQL工具建議複製連接

psql "dbname=postgres replication=database"

開啟流式傳輸WAL

START_REPLICATION[ SLOT slot_name] [ PHYSICAL] XXX/XXX[ TIMELINE tli]

無論是物理複製,還是邏輯複製,使用PostgreSQL的發佈訂閱或者pg_basebackup搭建流複製,都是通過複製協議與定義的消息進行交互(物理複製和邏輯複製數據流內容不同)

圖- WAL數據流消息類型

圖-邏輯複製中的XLogData消息

工作流程

當我們瞭解了概念之後,來看一下整個解析的工作流程。由於WAL文件里一個事務的內容並不一定是連續的,所以需要通過Reorder後放在buffer中,根據事務ID組織成一條消息,COMMIT後發送給輸出插件,輸出插件解析後將消息流發送給目標端。

圖-邏輯解析工作流程

2 問題與演進

當我們掌握了邏輯複製的原理,計劃使用其構建我們的數據遷移應用之前,我們還有一些問題並沒有解決。讓我們來一起看看是什麼亟待解決的問題,以及我們如何進行處理。

問題一:Failover slot

為了高可用性,資料庫至少會存在一主一備的架構,當主庫故障進行高可用切換時,備庫卻沒有相應的複製槽信息,也就是缺少failover slot。這是由於保存slot信息的物理文件,未同步至備庫。那麼我們如何手動創建一個faliover slot呢?

1. 主庫創建複製槽,檢查備庫wal文件是否連續

2. 複製包含slot信息的物理文件至備庫,在pg_repslot目錄下

3. 備庫重啟,重啟後才可以看到複製槽信息,原因是讀取slot物理文件的函數StartupReplicationSlots只會在postmaster進程啟動時調用。

4. 定期查詢主庫slot狀態,使用pg_replication_slot_advance函數推進備庫複製槽

自此,我們在備庫上也有了相應的信息,手動實現了failover slot。PostgreSQL生態中著名的高可用軟體Patroni也是以這種方式進行了實現,區別隻是在Patroni查詢主庫slot狀態時將信息寫入了DCS中,備庫拿到DCS中的位點信息進行推進。

問題二:DDL同步

原生的邏輯複製不支持解析DDL語句,我們可以使用事件觸發器來進行處理。

1. 使用事件觸發器感知表結構變更,記錄到DDL_RECORD表中,並將該表通過邏輯複製進行發佈。

2. 接收端獲取到該表的數據變更,即可處理為相應DDL語句進行執行。

圖-事件觸發器實現DDL同步

問題三: 雙向同步

當數據遷移涉及雙向同步的管道時,例如想實現雙主雙寫,對資料庫同一對象進行操作,就會出現WAL迴圈。

圖-相同表雙向同步導致數據迴圈

部分DTS應用為瞭解決這個問題會創建輔助表,在事務中先對輔助表進行操作,通過解析到對輔助表的操作而得知該記錄是又DTS應用插入,從而過濾該事務,不再迴圈解析。PostgreSQL對事務提供了Origin記錄,無須輔助表,通過pg_replication_origin_session_setup函數或者發佈訂閱中的replorigin_create即可指定Origin ID。

指定Origin ID後,我們除了可以解析後通過DTS應用進行過濾,還也可以通過解析插件中的FilterByOriginCB回調函數在解析過程中過濾,這種方式減少了數據傳輸,效率更高。

圖-test_decoding中OriginFilter函數DEMO

其他問題:

除了以上三個問題,還有一些使用的問題或限制。這裡列出了一些,不再展開,僅簡要說明。

Toast處理:對於toast值(消息格式中可以判斷),我們在處理時一般使用占位符進行處理,接收端接收到占位符就不對這一列進行處理,雖然有些麻煩,但這也是在和傳輸toast值的方案中權衡的結果。

心跳錶:由於複製槽記錄的XMIN是全局的,當我們發佈的表一直沒有更新時,XMIN沒有推進導致WAL積壓,我們可以創建一張心跳錶,周期性寫入數據併發布,使XMIN進行推進。

大事務延遲: 根據前文提到的工作流程我們可以知道預設事務在COMMIT後才會進行解析,這對於大事務來說勢必會導致延遲,PG14版本提供了streamin模式進行解析,即事務進行中進行解析併發送至接收端。

3 應用與實踐

前兩節我們從原理及問題的角度對PostgreSQL進行瞭解密,接下來我們看如何通過我們掌握的邏輯複製原理,進行數據遷移的應用與實踐。

全量與增量同步

在真實的數據遷移場景中,大部分都是全量和增量都要同步的場景,並且我們打通了數據傳輸的通道後,也對這條通道的安全,效率,以及功能的擴展,例如清洗,脫敏等ETL能力提出了新的要求。我們先來看一下如果實現全量與增量的同步。

圖-數據流向示意圖

主要流程包括:

1. 創建複製槽並導出快照

2. 根據快照進行全量數據遷移

3. 根據複製槽進行增量數據的遷移

我們使用了PG資料庫或者消息隊列MQ作為數據代理,全量與增量解析可以同時進行,當全量數據處理完畢後,狀態機通知增量處理程式進行增量發佈。而對於代理中的數據,可以在解析後進行預處理。

自建實例遷移上雲實踐

最後和大家分享一個自建實例遷移上雲的實踐,該案例是將自建的PG10版本實例遷移至京東雲上的RDS PG 11版本,通過對增量數據的迴流以及數據校驗保證了數據安全與業務平穩切換。

圖-數據遷移上雲

DTS應用主要分為如下幾個階段:

1. 數據檢查階段: 檢查主鍵,許可權,配置

2. 數據遷移階段: 結構,存量,增量數據遷移,監控遷移狀態

3. 應用遷移階段: 切換功能變數名稱,引入流量

4. 回滾階段: 增量數據迴流,若出現問題可快速回滾。

 

作者:蔣帥


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
 • 1.shell命令的執行機制:fork+exec執行命令(任何的shell都會執行) 2.shell中的用戶輸入處理 1 命令行參數:選項、參數 2 運行時輸入 3 read命令: 4 1.基本讀取、 5 2.超時處理-t選項、 6 3.隱藏方式讀取-s選項) 7 4.從文件中讀取 3.shell的 ...
 • 如果現在的我們離開了互聯網,生活會是什麼樣子? 互聯網++++,已經深刻滲透到人們的生活中。 不知道大家有沒有想過?每一個互聯網+結合的背後都是海量的存儲需求。你查看的每一個商品、組建的每一個戰隊、閱讀的每一篇文章,基於互聯網的每一個興趣愛好,都有它的key和value。 在 key-value 數 ...
 • 前言 在正式落地談技術之前,先花一些篇幅說說大數據技術的發展史。我們常說的大數據技術,其實起源於Google在2004年前後發表的三篇論文,分別是分散式文件系統GFS、大數據分散式計算框架MapReduce和NoSQL資料庫系統BigTable(如果大家需要可以留言給我,我可以專門解讀一下)。 一、 ...
 • 2022-09-21 (2)hash操作: ①設置多個hash值,(hmset): 查看說明: help hmset hmset person name A age 1 ②獲得多個hash值,(hmget): 查看說明: help hmget hmget person name age ③將hash ...
 • 摘要:帶你瞭解基於FusionInsight HD&MRS的5種kafka消費端性能優化方法。 本文分享自華為雲社區《FusionInsight HD&MRSkafka消費端性能優化方法》,作者: 穿夾克的壞猴子。 kafka消費端性能優化主要從下麵幾個方面優化: 1.介面使用方面優化: 舊版本hi ...
 • 摘要:RDS關係型資料庫是一種基於雲計算平臺的即開即用、穩定可靠、彈性伸縮、便捷管理的線上關係型資料庫服務。 本文分享自華為雲社區《一致性處理事務這下還是看RDS的吧【秋招特訓】》,作者:樣子的木偶。 什麼是RDS? RDS關係型資料庫是一種基於雲計算平臺的即開即用、穩定可靠、彈性伸縮、便捷管理的在 ...
 • 一、 登錄 1.1 登錄預設資料庫 首先切換到oracle用戶,用資料庫預設管理員登錄。 [[email protected] ~]# su – oracle [[email protected] ~]$ lsnrctl start #開啟監聽 [[email protected] ~]$ sqlplus / as s ...
 • 對於一個服務端開發來說 MYSQL 可能是他使用最熟悉的資料庫工具,然而,大部分的Java工程師對MySQL的瞭解和掌握程度,大致就停留在這麼一個階段:它可以建庫、建表、建索引,然後就是對裡面的數據進行增刪改查,語句性能有點差?沒關係,在表裡建幾個索引或者調整一下查詢邏輯就可以了,一條sql,MYS... ...
一周排行
  -Advertisement-
  Play Games
 • Github / Gitee QQ群(1群) : 813100564 / QQ群(2群) : 579033769 視頻教學 介紹 MiniWord .NET Word模板引擎,藉由Word模板和數據簡單、快速生成文件。 Getting Started 安裝 nuget link : https:// ...
 • Array.Sort Array類中相當實用的我認為是Sort方法,相比起冗長的冒泡排序,它的出現讓排序更加的簡化 結果如下: 還可以聲明一個靜態方法用來專門調用指定數組排序,從名為 array 的一維數組中 a 索引處開始,到 b 元素 從小到大排序。 註意: a + b 不能大於 array 的 ...
 • 前言 在上一篇文章CLR類型系統概述里提到,當運行時掛起時, 垃圾回收會執行堆棧遍歷器(stack walker)去拿到堆棧上值類型的大小和堆棧根。這裡我們來翻譯BotR里一篇專門介紹Stackwalking的文章,希望能加深理解。 順便說一句,StackWalker在中文里似乎還沒有統一的翻譯,J ...
 • 使用過 nginx 的小伙伴應該都知道,這個中間件是可以設置跨域的,作為今天的主角,同樣的 反向代理中間件的 YARP 毫無意外也支持了跨域請求設置。 有些小伙伴可能會問了,怎樣才算是跨域呢? 在 HTML 中,一些標簽,例如 img、a 等,還有我們非常熟悉的 Ajax,都是可以指向非本站的資源的 ...
 • 什麼是Git Git 是一個開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的項目。 Git 是 Linus Torvalds 為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟體。 Git 與常用的版本控制工具 CVS, Subversion 等不同,它採用了分散式版本庫的 ...
 • 首先CR3是什麼,CR3是一個寄存器,該寄存器內保存有頁目錄表物理地址(PDBR地址),其實CR3內部存放的就是頁目錄表的記憶體基地址,運用CR3切換可實現對特定進程記憶體地址的強制讀寫操作,此類讀寫屬於有痕讀寫,多數驅動保護都會將這個地址改為無效,此時CR3讀寫就失效了,當然如果能找到CR3的正確地址... ...
 • 說明 onlyoffice為一款開源的office線上編輯組件,提供word/excel/ppt編輯保存操作 以下操作均基於centos8系統,officeonly鏡像版本7.1.2.23 鏡像下載地址:https://yunpan.360.cn/surl_y87CKKcPdY4 (提取碼:1f92 ...
 • 二叉樹查找指定的節點 前序查找的思路 1.先判斷當前節點的no是否等於要查找的 2.如果是相等,則返回當前節點 3.如果不等,則判斷當前節點的左子節點是否為空,如果不為空,則遞歸前序查找 4.如果左遞歸前序查找,找到節點,則返回,否繼續判斷,當前的節點的右子節點是否為空,如果不為空,則繼續向右遞歸前 ...
 • ##Invalid bound statement (not found)出現原因和解決方法 ###前言: 想必各位小伙伴在碼路上經常會碰到奇奇怪怪的事情,比如出現Invalid bound statement (not found),那今天我就來分析以下出現此問題的原因。 其實出現這個問題實質就是 ...
 • ###一、背景知識 爬蟲的本質就是一個socket客戶端與服務端的通信過程,如果我們有多個url待爬取,只用一個線程且採用串列的方式執行,那隻能等待爬取一個結束後才能繼續下一個,效率會非常低。 需要強調的是:對於單線程下串列N個任務,並不完全等同於低效,如果這N個任務都是純計算的任務,那麼該線程對c ...