【虹科乾貨】Lambda數據架構和Kappa數據架構——構建現代數據架構

来源:https://www.cnblogs.com/hongcloudtech/archive/2023/11/10/17824605.html
-Advertisement-
Play Games

我們可以採取多種方法對數據架構進行分類,且每種方法都有自己的優缺點。它們可以幫助你做出明智的決定,選擇適合與你需求最匹配的設計。兩種最流行的基於速度的架構是Lambda和Kappa,本文將介紹基於速度的數據架構,以及它們在總體方案中的位置。 ...


如何更好地構建我們的數據處理架構,如何IT系統中的遺留問題進行現代化改造並將其轉變為現代數據架構?該怎麼為你的需求匹配最適合的架構設計呢,本文將分析兩種最流行的基於速度的數據架構,為你提供一些思路。

文章速覽:

  • 什麼是數據架構?
  • 基於速度的數據架構
  • 結語

 

一、什麼是數據架構?

數據架構是企業架構中的一個元素,繼承了企業架構的主要屬性:流程、策略、變更管理和評估權衡。根據Open Group架構框架,數據架構是對“企業主要數據類型、來源、邏輯數據資產、物理數據資產和數據管理資源的結構和交互” 的描述。

根據數據管理知識體系,數據架構是“識別企業的數據需求(無論結構如何)並設計和維護核心藍圖以滿足這些需求”的過程。它使用核心藍圖來指導數據集成、控制數據資產並使數據投資與業務戰略保持一致。

然而,糟糕的數據架構是僵化且過度集中的。它使用了錯誤的工具來完成工作,這阻礙了開發和變更管理。

二、基於速度的數據架構

數據速度是指數據生成的速度、數據移動的速度以及將其處理為可用指導的速度。 

根據處理數據的速度,數據架構通常分為兩類:Lambda和Kappa。

(一)Lambda數據架構

1、什麼是Lambda

Lambda數據架構由Apache Storm的創建者Nathan Marz於 2011 年開發,旨在解決大規模實時數據處理的挑戰。術語 Lambda 源自lambda演算 (λ),描述了在多個節點上並行運行分散式計算的函數。Lambda數據架構提供了一個可擴展、容錯且靈活的系統來處理大量數據。它允許以混合方式訪問批處理和流處理方法。 

 

2Lambda架構的使用場景

1當您有各種工作負載和速度要求時,Lambda架構是理想的選擇。由於它可以處理大量數據並提供低延遲查詢結果,因此適合儀錶板和報告等實時分析應用程式Lambda架構對於批處理(清理、轉換、數據聚合)、流處理任務(事件處理、開發機器學習模型、異常檢測、欺詐預防)以及構建集中存儲庫(稱為“數據湖”)非常有用。

2Lambda架構的關鍵區別在於,它使用兩個獨立的處理系統來處理不同類型的數據處理工作負載。第一個是批處理系統,它將結果存儲在集中式數據存儲(例如數據倉庫或數據湖)中。第二個系統是流處理系統,它在數據到達時實時處理數據並將結果存儲在分散式數據存儲中。

 

3Lambda架構的組成

Lambda架構由攝取層、批處理層、速度層(或流層)和服務層組成。

  • 批處理層:批處理層處理大量歷史數據並將結果存儲在集中式數據存儲中,例如數據倉庫或分散式文件系統。該層使用Hadoop或Spark等框架進行高效的數據處理,使其能夠提供所有可用數據的總體視圖。
  • 速度層:速度層處理高速數據流,並使用Apache FlinkApache Storm等事件處理引擎提供最新的信息視圖。該層處理傳入的實時數據並將結果存儲在分散式數據存儲中,例如消息隊列或NoSQL資料庫。
  • 服務層:無論底層處理系統如何,Lambda架構服務層對於為用戶提供一致的數據訪問體驗至關重要。它在支持需要快速訪問當前信息(例如儀錶板和分析)的實時應用程式方面發揮著重要作用。

 

4Lambda架構的優勢

Lambda架構解決了計算任意函數的問題,系統必須評估任何給定輸入的數據處理函數(無論是慢動作還是實時)。此外,它還提供容錯功能,確保在一個系統出現故障或不可用時,任一系統的結果都可以用作另一個系統的輸入。在高吞吐量、低延遲和近實時應用程式中這種架構的效率是很明顯的

 

 Lambda架構示意圖

 

5Lambda架構的缺點

Lambda架構提供了許多優勢,例如可擴展性、容錯性以及處理各種數據處理工作負載(批處理和流)的靈活性。但它也有缺點:

  • Lambda架構很複雜,它使用多種技術堆棧來處理和存儲數據。
  • 設置和維護可能具有挑戰性,尤其是在資源有限的組織中。
  • 每個階段的批處理和速度層中都會重覆底層邏輯。這種重覆有一個代價:數據差異。因為儘管具有相同的邏輯,但一層與另一層的實現不同。因此,錯誤/錯誤的概率較高,並且您可能會遇到批處理層和速度層的不同結果。

 

(二)Kappa數據架構

2014年,Jay Kreps指出了Lambda架構的一些缺點。這次討論使大數據社區找到了一種使用更少代碼資源的替代方案——Kappa數據架構。

1、什麼是Kappa數據架構

Kappa(以希臘字母 ϰ 命名,在數學中用於表示迴圈)背後的主要思想是單個技術堆棧可用於實時和批量數據處理。該名稱反映了該體繫結構對連續數據處理或再處理的重視,而不是基於批處理的方法。 

Kappa 的核心依賴於流式架構。傳入數據首先存儲在事件流日誌中。然後,它由流處理引擎(例如 Kafka)連續實時處理或攝取到另一個分析資料庫或業務應用程式中。這樣做需要使用各種通信範例,例如實時、近實時、批處理、微批處理和請求響應等。

 

2Kappa數據架構的組成

數據重新處理是 Kappa的一項關鍵要求,使源端的任何更改對結果的影響可見。因此,Kappa 架構僅由兩層組成:流處理層和服務層。

Kappa架構中,只有一層處理層:流處理層。該層負責採集、處理和存儲直播數據。這種方法消除了對批處理系統的需要。相反,它使用先進的流處理引擎(例如 Apache Flink、Apache Storm、Apache Kafka 或 Apache Kinesis)來處理大量數據流並提供對查詢結果的快速、可靠的訪問。

流處理層有兩個組件:

  • 攝取組件:該層從各種來源收集傳入數據,例如日誌、資料庫事務、感測器和 API。數據被實時攝取並存儲在分散式數據存儲中,例如消息隊列或NoSQL資料庫。
  • 處理組件:該組件處理大量數據流並提供對查詢結果的快速可靠的訪問。它使用事件處理引擎(例如 Apache Flink 或 Apache Storm)來實時處理傳入數據和歷史數據(來自存儲區域),然後將信息存儲到分散式數據存儲中。

對於幾乎所有用例,實時數據都勝過非實時數據。儘管如此,Kappa架構不應該被視為 Lambda 架構的替代品。反之,在不需要批處理層的高性能來滿足標準服務質量的情況下,您應該考慮 Kappa架構。

 

3Kappa架構的優勢

Kappa架構旨在提供可擴展、容錯且靈活的系統,用於實時處理大量數據。它使用單一技術堆棧來處理實時和歷史工作負載,並將所有內容視為流。Kappa 架構的主要動機是避免為批處理層和速度層維護兩個獨立的代碼庫(管道)。這使得它能夠提供更加精簡的數據處理管道,同時仍然提供對查詢結果的快速可靠訪問。

 

 Kappa架構示意圖

 

4Kappa架構的缺點

Kappa架構承諾可擴展性、容錯性和簡化的管理。然而,它也有缺點。

  • Kappa架構理論上比 Lambda更簡單,但對於不熟悉流處理框架的企業來說,技術上仍然可能很複雜。 
  • 擴展事件流平臺時的基礎設施成本。在事件流平臺中存儲大量數據可能成本高昂,並會引發其他可擴展性問題,尤其是當數據量達到TB或PB級時 
  • 事件時間和處理時間之間的滯後不可避免地會產生數據延遲。因此,Kappa 架構需要一套機制來解決這個問題,例如水印、狀態管理、重新處理或回填。

 

(三)探索數據流模型

1、為什麼會出現數據流模型

Lambda和Kappa試圖通過集成本質上不相容的複雜工具來剋服2010年代Hadoop生態系統的缺點。這兩種方法都難以解決協調批處理和流數據的根本挑戰。然而,Lambda和Kappa 為進一步的改進提供了靈感和基礎。

統一多個代碼路徑是管理批處理和流處理的一項重大挑戰。即使有了Kappa架構的統一隊列和存儲層,開發人員也需要使用不同的工具來收集實時統計數據並運行批量聚合作業。今天,他們正在努力應對這一挑戰。

 

2、什麼是數據流模型

數據流模型的基本前提是將所有數據視為事件併在不同類型的視窗上執行聚合。實時事件流是無界數據,而批量數據是具有自然視窗的有界事件流。

 

視窗模式示意圖

 

數據工程師可以選擇不同的視窗,例如滑動視窗或會話視窗,以進行實時聚合。數據流模型允許使用幾乎相同的代碼在同一系統內進行實時和批處理。

“批處理作為流處理的一個特例”的想法已經變得越來越普遍,Flink和Spark等框架也採用了類似的方法。

 

結語

當然,關於速度模型的數據架構討論還有另一個用處:適合物聯網 (IoT) 的設計選擇,在本篇文章中,我們就不再贅述。如何最好地構建我們處理數據的架構,如何對僵化且緩慢的IT遺留系統,進行現代化改造並將其轉變為現代數據架構,顯然,關於這個問題還尚未有定論。歡迎與我們共同探討。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文分享自華為雲社區《淺析KV存儲之長尾時延問題,華為雲 GeminiDB Redis 探尋行業更優解決方案!》,作者:華為雲資料庫GaussDB NoSQL團隊。 目前,KV存儲的廣泛使用極大程度上源於快速訪問的業務需求,而這種業務通常對時延敏感度高,在較好的平均性能下,還需要解決特定場景下的性能 ...
  • 在之前的實時湖倉系列文章中,我們已經介紹了實時湖倉對於當前企業數字化轉型的重要性,實時湖倉的功能架構設計,以及實時計算和數據湖結合的應用場景。 在本篇文章中,將介紹袋鼠雲數棧在構建實時湖倉系統上的探索與落地實踐,及未來規劃。 數棧為什麼選擇實時湖倉 數棧作為一個數據開發平臺,在未引入實時湖倉之前提供 ...
  • 資料庫底層實現博大精深,本文所述,根據線上場景進行了一些研究和探討,希望能為相關場景提供一些啟示。文章中難免會有不足之處,希望讀者能給予寶貴的意見和建議 ...
  • 前言 近期接到一個關於谷歌EDLA認證的需求,我負責的是谷歌原生桌面佈局的修改,通過研究源碼,將涉及到了一些修改思路發出來,大家可以參考一下有沒有對你有用的信息。主要修改內容有: 1、搜索欄、底部導航欄未居中 2、中部應用未按要求排布,詳情請參考摹客 3、在原生Google桌面未添加中性S-writ ...
  • 使用不可信的數據,通過調用不安全的遞歸函數來暴露預設原型 原型污染:基礎 什麼是原型污染? 原型污染是一種針對JavaScript運行時的註入攻擊。通過原型污染,攻擊者可以控制對象屬性的預設值,從而篡改應用程式的邏輯並可能導致服務被拒絕,甚至在某些極端情況下遠程執行代碼。 現在,你是不是滿腦子充滿了 ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 記錄一下在公司遇到的一些功能,以及相關實現 以上的內容我花了一周時間去實現的,自己也覺得時間很長,但主要因為很少使用ECharts,導致使用的過程中大部分的時間都在查文檔。 對於上面的這些功能點,其實算是寫了兩遍吧,這周一開了個Code ...
  • 1、業務背景 使用vue+element開發報表功能時,需要列表上某列的超鏈接按鈕彈窗展示,在彈窗的el-table列表某列中再次使用超鏈接按鈕點開彈窗,以此類推多表格彈窗嵌套,本文以彈窗兩次為例 最終效果如下示例頁面 2、具體實現和問題拋出 <template> <div class="el_ma ...
  • 作者:WangMin 格言:努力做好自己喜歡的每一件事 對於初學CSS的同學來說,會有很多屬性相關的疑問,行高屬性 line-height一定是其中一個,因為它是CSS中非常重要的一個屬性,這個屬性改變元素在網頁中的行高,讓你的網頁看起來更加整潔,美觀。 什麼是行高? CSS中的行高(line-he ...
一周排行
    -Advertisement-
    Play Games
  • 當使用Autofac處理一個介面有多個實現的情況時,通常會使用鍵(key)進行區分或者通過IIndex索引註入,也可以通過IEnumerable集合獲取所有實例,以下是一個具體的例子,演示如何在Autofac中註冊多個實現,並通過構造函數註入獲取指定實現。 首先,確保你已經安裝了Autofac Nu ...
  • 本篇將分享Prometheus+Grafana的監控平臺搭建,並監控之前文章所搭建的主機&服務,分享日常使用的一些使用經驗本篇將配置常用服務的監控與面板配置:包括 MySQL,MongoDB,CLickHouse,Redis,RabbitMQ,Linux,Windows,Nginx,站點訪問監控,已... ...
  • 使用Aspirate可以將Aspire程式部署到Kubernetes 集群 工具安裝 dotnet tool install -g aspirate --prerelease 註意:Aspirate 正在開發中,該軟體包將作為預覽版進行版本控制,--prelease 選項將獲得最新的預覽版。 容器註 ...
  • 前言 本文要說的這種開發模式,這種模式並不是只有blazor支持,js中有一樣的方案next.js nuxt.js;blazor還有很多其它內容,本文近關註漸進式開發模式。 是的,前後端是主流,不過以下情況也許前後端分離並不是最好的選擇: 小公司,人員不多,利潤不高,創業階段能省則省 個人開發者,接 ...
  • 在.NET中,Microsoft.Extensions.Logging是一個靈活的日誌庫,它允許你將日誌信息記錄到各種不同的目標,包括資料庫。在這個示例中,我將詳細介紹如何使用Microsoft.Extensions.Logging將日誌保存到MySQL資料庫。我們將使用Entity Framewo ...
  • chatgpt介面開發筆記3: 語音識別介面 1.文本轉語音 1、瞭解介面參數 介面地址: POST https://api.openai.com/v1/audio/speech 下麵是介面文檔描述內容: 參數: { "model": "tts-1", "input": "你好,我是饒坤,我是ter ...
  • 前面兩篇文章主要是介紹瞭如何解決高併發情況下資源爭奪的問題。但是現實的應用場景中除了要解決資源爭奪問題,高併發的情況還需要解決更多問題,比如快速處理業務數據等, 本篇文章簡要羅列一下與之相關的更多技術細節。 1、非同步編程:使用async和await關鍵字進行非同步編程,這可以避免阻塞線程,提高程式的響 ...
  • 大家好,我是棧長。 Nacos 2.3.0 前幾天正式發佈了,新增了不少實用性的新功能,真是史上最強版本。 Nacos 2.3.0 還真是一個比較重要的大版本,因為它涉及了太多重大更新,今天棧長給大家來解讀下。 Nacos 先掃個盲: Nacos 一個用於構建雲原生應用的動態服務發現、配置管理和服務 ...
  • IDEA的遠程開發功能,可以將本地的編譯、構建、調試、運行等工作都放在遠程伺服器上執行,而本地僅運行客戶端軟體進行常規的開發操作即可,舊版本IDEA目前不支持該功能.,本例使用的是IDEA2023.2.5版本 下麵介紹如何在IDEA中設置遠程連接伺服器開發環境並結合Cpolar內網穿透工具實現無公網 ...
  • 本文解釋為啥會有響應式編程,為什麼它在開發者中不太受歡迎,以及引入 Java 虛擬線程後它可能最終會消失。 命令式風格編程一直深受開發者喜愛,如 if-then-else、while 迴圈、函數和代碼塊等結構使代碼易理解、調試,異常易追蹤。然而,像所有好的東西一樣,通常也有問題。這種編程風格導致線程 ...