在當今數據驅動的時代，企業對數據的實施性能力提出了前所未有的高要求。為了應對這一挑戰，構建高效、靈活且可擴展的實時湖倉成為數字化轉型的關鍵。本文將深入探討袋鼠雲數棧如何通過三大核心實踐——ChunJun 融合 Flink CDC、MySQL 一鍵入湖至 Paimon 的實踐，以及湖倉一體治理 Pai ...

在當今數據驅動的時代，企業對數據的實施性能力提出了前所未有的高要求。為了應對這一挑戰，構建高效、靈活且可擴展的實時湖倉成為數字化轉型的關鍵。本文將深入探討袋鼠雲數棧如何通過三大核心實踐——ChunJun 融合 Flink CDC、MySQL 一鍵入湖至 Paimon 的實踐，以及湖倉一體治理 Paimon 的實踐，重塑實時湖倉的架構與管理，為企業打造實時數據分析的新引擎。

ChunJun 融合 Flink CDC

Flink CDC（Change Data Capture）是由 Apache Flink 提供的一個流數據集成工具，它允許用戶通過 YAML 文件優雅地定義 ETL（Extract, Transform, Load）流程，並自動生成定製化的 Flink 運算元和提交 Flink 作業。

Flink CDC 的核心特性包括：端到端數據集成框架、易於構建作業的 API、多表支持、整庫同步精確一次語義、增量快照演算法等諸多特性。ChunJun 融合 Flink CDC 能夠更好支持數據的入湖入倉，帶來了多方面的變化：

file
· 高吞吐、低延遲：Flink CDC 能夠以高吞吐量和低延遲的方式捕獲和傳輸資料庫的變更

· 全增量一體化：Flink CDC 支持全量數據和增量數據的同步，無需手動操作即可實現全量快照與增量日誌的自動銜接

· 支持異構數據源：Flink CDC 支持多種數據源，可以輕鬆實現異構數據源的集成，通過 Flink SQL 定義不同類型的 CDC 表，實現數據融合

· 實時性：支持近實時的數據同步，滿足對數據時效性要求高的場景

· 鏈路短組件少：Flink CDC 的架構設計讓整個數據捕獲和處理的鏈路變得更為簡潔，所涉及的組件數量相對有限，這不但降低了系統的繁雜程度，還削減了學習與運維的成本

MySQL 一鍵入湖 Paimon 實踐

ChunJun 融合 Flink CDC 增加了實時湖倉數據接入的方式，結合 FLink CDC 提供的 MySQL 數據到 Paimon 的數據同步能力，能夠高效地將 MySQL 表數據實時寫入 Paimon 中。在融合的同時，還支持歷史 Json 格式構建任務、臟數據、Mertic、表血緣、可視化配置等功能。

file

接下來通過內部實踐案例進行深入分析。

● 採集配置 Flink CDC 來源

實時採集配置 Flink CDC 來源為 MySQL 時，嚮導模式配置還原範圍採用全量+增量模式。

首先，對資料庫表進行全表快照讀取，生成數據的一致性快照，以同步來源表的歷史全量數據。在全量快照讀取完成後，會自動切換至增量模式，對資料庫的增量變化進行採集。表選擇的方式多樣，支持整庫同步、分庫分表同步、單表選擇同步，同時也支持通過正則的方式選擇表。

對於 DDL 變更，當上游產生 DDL 操作時，若選擇支持，下游會自動執行；若選擇不支持，則對上游產生的 DDL 做異常捕獲，此時任務會失敗。搭配告警功能，可及時告知出現異常的情況。出現異常後，需要手動執行 DDL 操作，任務才能恢復正常運行。

file

● 採集配置目標端

目標源通過 HiveMetastore 方式配置目標 Paimon 表。寫入表的方式具有一定靈活性，支持手動選擇表。對於上游存在多表寫入同一下游表的場景，有一定要求，必須保證上下游表結構保持一致。

同時，支持使用相同表名、自定義表名的方式。在同步前，會先創建寫入的目標表，如果已存在，則直接使用現成表。表分區方面，通過輸入固定的語法，將對應上游的主鍵表欄位作為目標 Piamon 表的分區欄位。

file

● 調度運行採集任務

實時採集任務在通過語法檢查後，提交至調度運維中運行。採集任務的指標包括 Mertic 輸入輸出指標展示、臟數據指標以及數據血緣解析等。

file

● 查詢入湖數據

通過實時平臺中 FlinkSQL 任務所提供的功能，對 Paimon 表進行查詢並插入數據。利用 FlinkSQL 的 SqlQuery 功能構建 Select 查詢語句，並採用流模式實時查詢 Paimon 表，以採集插入數據的情況。

file

湖倉一體治理 Paimon 實踐

在構建和維護數據湖與數據倉庫（湖倉）的一體化架構進程中，袋鼠雲憑藉湖倉治理機制，不斷推進實時數據湖的優化與完備。

然而，Paimon 在數據處理期間可能會引發數據碎片化的問題，像小文件的急劇增多、過時快照的持續累積以及孤兒文件的出現，這些狀況均有可能給數據湖表的讀寫效率帶來極為顯著的不良影響。

為有效應對這一挑戰，袋鼠雲於數棧湖倉一體中引入了文件治理機制，支持定期開展數據整理操作，例如合併小文件、清理過期的數據快照以及清除孤兒文件等。此類治理活動旨在增強數據湖的整體讀寫性能，保障數據流的高效運行和分析工作的順利開展。藉由這些數據治理手段，袋鼠雲能夠為湖倉架構的穩定性和性能提供穩固支撐，進而助力企業在大數據時代實現敏捷決策和深度洞察。