基於Doris構建億級數據實時數據分析系統

来源:https://www.cnblogs.com/waldron/p/18017903
-Advertisement-
Play Games

轉載至我的博客 https://www.infrastack.cn ,公眾號:架構成長指南 背景 隨著公司業務快速發展,對業務數據進行增長分析的需求越來越迫切,與此同時我們的業務數據量也在快速激增、每天的數據新增量大概在30w 左右,一年就會產生1 個億的數據,顯然基於傳統MySQL資料庫已經無法支 ...


轉載至我的博客 https://www.infrastack.cn ,公眾號:架構成長指南

背景

隨著公司業務快速發展,對業務數據進行增長分析的需求越來越迫切,與此同時我們的業務數據量也在快速激增、每天的數據新增量大概在30w 左右,一年就會產生1 個億的數據,顯然基於傳統MySQL資料庫已經無法支撐滿足以上需求

基於上述需求和痛點,決定提供一個靈活的多維實時查詢和分析平臺,幫助業務線做精細化運營。

業務分析

現有業務數據有以下特點,查詢多、更新少,基本不會更新1 個月以前的數據,但是查詢範圍較大,有時需要查詢幾年前的數據,而且數據會以年、月等不同維度統計來進行增長分析

因此以上場景使用 OLTP 引擎不是特別適合,OLAP則更為適合

這裡可能有些人員不懂什麼是 OLAP,下麵是一個OLAP與OLTP對比圖

技術選型

實時數倉

以上場景確定後,我們就開始了框架選型,最終確定了 Doris,理由如下

  • 性能滿足要求
  • 相容MySQL 協議
  • 運維成本較低
  • 架構足夠簡單
  • 社區活躍,支持力度高

下麵是一個選型對比,沒有好壞,只是Doris適合我們

實時數據捕獲

實時數據,採用Fink CDC進行捕獲,Fink CDC Connectors 是Apache Flink的一組源連接器,使用變更數據捕獲 (CDC) 從不同資料庫中獲取變更,而獲取變更是通過Debezium監聽Binlog 日誌,獲取到更新數據以後,可以對數據進行轉換,然後在根據doris 提供的Flink 插件Doris flink connecto導入到 Doris 裡面

具體示例,可以參考:https://mp.weixin.qq.com/s/ssXocqCyoSVuRFBi2hzCKQ

為什麼需要實時數據捕獲?

Doris 只是一個數據倉庫,他提供的功能是實時數據統計、查詢和存儲,他不支持主動實時抓取數據,需要藉助第三方工具來進行實現,比如我們在 MySQL修改了一條數據,怎麼讓 Doris 進行更新?目前想到的答案是主動發送更新數據至Kafka,然後Doris訂閱 KafKa 的 Topic 然後進行實時同步,雖然以上能實現我們想要的功能,但是有點複雜,業務每次操作都要發送 Kafka,同時要想對數據進行加工,工作量相對較,正因為有以上問題,所以我們採用Flink CDC

數據調度平臺

數據調度平臺,採用海豚調度器(DolphinScheduler),它也是國人開源的一款分散式可擴展的大數據調度平臺,使用Java 語言開發,目前已經成為Apache 項目,它提供了強大的DAG可視化界面,所有流程定義都是可視化,通過拖拽任務完成定製DAG,同時支持 30+類型的任務,比如執行 SQL、shell 、DataX 等類型,官網地址:https://dolphinscheduler.apache.org

為什麼需要數據調度平臺?

數據轉換:通過Flink 抽取的數據,如果還想對這些數據進行加工處理,比如實時同步的業務數據,需要再次轉換為分鐘級、小時級、天、月等維度的報表

非實時數據同步:通過調度DataX,以分鐘、小時、天為單位進行源數據同步

定時歸檔:比如每晚同步業務資料庫一個月前數據,同步完成之後,在執行刪除任務,刪除業務庫一個月前的數據

數倉數據分層

數據倉庫的分層是一種常見的設計模式,它將數據倉庫劃分為不同的層級,每個層級有不同的功能和用途。

數倉層內部的劃分不是為了分層而分層,它是數據倉庫經過了建模和 ETL 之後真正開始對外提供服務的地方,因此數倉層內的劃分更應該符合使用者的思維習慣。 DW 內的分層沒有最正確的,只有最適合你的。

ODS層

Operation Data Store 數據準備區,也稱為貼源層。數據倉庫源頭系統的數據表通常會原封不動的存儲一份,這稱為ODS層,是後續數據倉庫加工數據的來源。

DWD層

data warehouse details 細節數據層,是業務層與數據倉庫的隔離層。主要對ODS數據層做一些數據清洗和規範化的操作,數據清洗:去除空值、臟數據、超過極限範圍的

DWS層

data warehouse service 數據服務層,基於DWD上的基礎數據,整合彙總成分析某一個主題域的服務數據層,一般是寬表。用於提供後續的業務查詢,OLAP分析,數據分發等。

  • 用戶行為,輕度聚合
  • 主要對ODS/DWD層數據做一些輕度的彙總。

註意:數倉層內部的劃分不是為了分層而分層,它是數據倉庫經過了建模和 ETL 之後真正開始對外提供服務的地方,因此數倉層內的劃分更應該符合使用者的思維習慣。 DW 內的分層沒有最正確的,只有最適合你的。

命名規範

系統架構

經過前面的技術選型,以及分層定義,我們最終架構如下

數據查詢

假設語句已經同步到doris,那麼怎麼進行展現,這裡有很多種方式,比如通過BI工具,例如:power bi、dataEase、Davinci等,同時Doris 支持mysql 協議,我們為了讓之前的業務改動,對後端介面實現進行了替換,通過 mybatis 動態解析 sql,並調用 doris進行查詢,架構如下

示例介紹

Flink實時同步

具體查看鋒哥的文章,https://mp.weixin.qq.com/s/ssXocqCyoSVuRFBi2hzCKQ

DolphinScheduler準實時同步

同步業務資料庫mysql中register表至doris的ods_test_mysql_register_s表中,並對業務數據進行刪除

1. 創建datax文件

在資源中心創建各個團隊文件夾,併在文件夾中創建對應datax文件

2. 創建任務

進入項目管理/工作流定義目錄,點擊創建工作流

選擇shell任務,worker分區選擇datax,

datax組為自行創建,實際配置時,以本地執行環境為準

選擇資源,並編寫datax啟動命令

如果遷移完,需要進行原數據刪除,則新建sql任務,編寫sql語句,進行清理

3. 依賴關係創建

第一步進行datax數據同步第二步進行原數據清理,如下圖連線就是依賴關係

4. 全局參數設置

參數可以設置為動態參數,這裡為了測試方便所以為固定值

例如:$[yyyy-MM-dd 00:00:00-15] 表示前15天,具體參考dolphinscheduler內置參數說明

5. 啟動任務

首選點擊對應任務進行上線,在配置定時任務,如果測試連通性,則點擊啟動按鈕可以立即測試

參考鏈接

基於 Flink SQL CDC 的實時數據同步方案

Apache Flink CDC 批流融合技術原理分析

詳解數據倉庫明星產品Doris背後的技術奧秘

Flink CDC結合Doris flink connector實現Mysql數據實時入Apache Doris

掃描下麵的二維碼關註我們的微信公眾帳號,在微信公眾帳號中回覆◉加群◉即可加入到我們的技術討論群裡面共同學習。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言: 如果你想在 VMware 虛擬機裡面多開玩游戲的話,但是現在大多數網游都會檢測是否虛擬機,進入游戲被檢測到在虛擬機中運行,游戲可能直接閃退。所以就得對 VMware 虛擬機進行去除虛擬化。 原理就是通過十六進位工具對 VMware 虛擬機程式進行修改硬體的信息,分別把硬碟、音效卡、網卡、主板芯 ...
  • GaussDB(for MySQL) Serverless集群,可根據客戶業務實時負載,集群資源秒級動態彈降,結合內核深度優化,在各種場景下做到對上層業務透明無感。 ...
  • 前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節 ...
  • 02 SQL更新語句執行流程 與查詢流程不一樣的是,更新流程還涉及兩個重要的日誌模塊。 ​ redo log(重做日誌)和 binlog(歸檔日誌) ​ redo log 物理日誌 binlog 邏輯日誌 redo log WAL 的全稱是 Write-Ahead Logging。 關鍵點就是先寫日 ...
  • 前言: 記錄對林曉斌老師的《MySQL 實戰 45 講》課程學習路程。 01 MySQL的基本架構 MySQL的邏輯架構圖 MySQL 分為 Server 層和存儲引擎層兩部分。 Server 層 功能:實現所有 跨存儲引擎 的功能,比如存儲過程、觸發器、視圖等。 連接器、查詢緩存、分析器、優化器、 ...
  • 本文詳細介紹了stream連接池及其原理,讓我們更好的理解GaussDB(DWS)集群通信中數據交互的具體邏輯,對於GaussDB通信運維也具備一定的參考意義。 ...
  • docker安裝mysql docker倉庫搜索mysql docker search mysql docker倉庫拉取mysql8.0 docker pull mysql:8.0 // 預設拉取最新版本 docker pull mysql 查看本地倉庫鏡像是否下載成功 docker images ...
  • 背景 看到Apache DolphinScheduler社區群有很多用戶反饋和討論這塊問題,針對不相容的問題,不僅需要自己重新編譯各一個新包,而且因為預設是使用zk-3.8的配置,所以會出現不相容問題。使用zk-3.4配置即可適配3.4.x 解決辦法(一) 切換到項目源碼的根路徑中執行 mvn cl ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...