Apache Storm 核心概念

来源:https://www.cnblogs.com/shsxt/archive/2018/03/21/8616725.html
-Advertisement-
Play Games

前言: Storm讀取實時數據流,並傳遞給處理單元,最終輸出處理後的數據。 下圖描述了storm的處理數據的主要結構。 元組(Tuple) : 元組是Storm提供的一個輕量級的數據格式,可以用來包裝你需要實際處理的數據。元組是一次消息傳遞的基本單元。一個元組是一個命名的值列表,其中的每個值都可以是 ...


前言:

Storm讀取實時數據流,並傳遞給處理單元,最終輸出處理後的數據。 
下圖描述了storm的處理數據的主要結構。

元組(Tuple) : 
     元組是Storm提供的一個輕量級的數據格式,可以用來包裝你需要實際處理的數據。元組是一次消息傳遞的基本單元。一個元組是一個命名的值列表,其中的每個值都可以是任意類型的。元組是動態地進行類型轉化的(欄位的類型不需要事先聲明)。在Storm中編程時,就是在操作和轉換由元組組成的流。通常,元組包含整數,位元組,字元串,浮點數,布爾值和位元組數組等類型。要想在元組中使用自定義類型,就需要實現自己的序列化方式。

流(Stream) :
      一個流由無限的元組序列組成,這些元組會被分散式並行地創建和處理。通過流中元組包含的欄位名稱來定義這個流。 
每個流聲明時都被賦予了一個ID。只有一個流的Spout和Bolt非常常見,所以OutputFieldsDeclarer提供了不需要指定ID來聲明一個流的函數(Spout和Bolt都需要聲明輸出的流)。這種情況下,流的ID是預設的“default”。

Spouts :
     Spout(噴嘴)是Storm中流的來源。通常Spout從外部數據源,如消息隊列中讀取元組數據並吐到拓撲里。Spout可以是可靠的(reliable)或者不可靠(unreliable)的。可靠的Spout能夠在一個元組被Storm處理失敗時重新進行處理,而非可靠的Spout只是吐數據到拓撲里,不關心處理成功還是失敗了。

  Spout可以一次給多個流吐數據。此時需要通過OutputFieldsDeclarer的declareStream函數來聲明多個流併在調用SpoutOutputCollector提供的emit方法時指定元組吐給哪個流。

     Spout中最主要的函數是nextTuple,Storm框架會不斷調用它去做元組的輪詢。如果沒有新的元組過來,就直接返回,否則把新元組吐到拓撲里。nextTuple必須是非阻塞的,因為Storm在同一個線程里執行Spout的函數。

     Spout中另外兩個主要的函數是ack和fail。當Storm檢測到一個從Spout吐出的元組在拓撲中成功處理完時調用ack,沒有成功處理完時調用fail。只有可靠型的Spout會調用ack和fail函數。

Bolts :
       storm是一種分散式實時計算系統,而storm topology中,所有的實時計算的業務邏輯都是定義在bolt中的。bolt中可以做任何計算邏輯,比如過濾、執行自定義的函數、聚合、join、訪問資料庫,等等。簡而言之,bolt實際上就是我們實現或者繼承了storm提供的介面或基類,自己開發的類。

接著看一個實例,如何通過Apache Storm來構建Twitter Analysis。結構如下圖所示。

       通過Twitter Streaming API為Twitter Analysis提供輸入數據。Spout通過Twitter Streaming API讀取數據,並以tuple流的形式輸出。隨後tuple將轉發給bolt,bolt將會對tuple進行處理。

Topology(拓撲):
    storm topology和mapreduce job是有些類似的。唯一關鍵的區別就在於,mapreduce job是肯定會結束運行的;但是storm topology是永遠會運行的,除非你自己手動殺了它。

   使用storm開發的實時計算應用程式,所有的計算邏輯都在topology中。一個topology,其實就是邏輯上的計算流向圖,由spout和bolt組成。一個topology可以包含一個或者多個spout和bolt。而spout和bolt,就是topology這個計算流向圖種的一個一個的計算節點,其中包含了我們自己編寫的計算代碼。spout和bolt之間的關係和聯繫,其實就定義了實時計算的數據流向。可以想象成,數據從外部讀入spout,然後傳輸到後面一個一個的bolt;而bolt之間的數據流向,可能是交叉層疊的,看起來整個topology就像一個DAG(有向無環圖)一樣。 簡而言之,topology,就是邏輯上的實時計算拓撲圖。

Tasks(任務):
      Spout 和 bolt是topology中的最小邏輯單元。topology是通過一個spout和一組bolt構建。邏輯單元需要按特定的順序來執行。Storm所執行的每個spout和bolt稱為task。簡而言之,spout或bolt的執行稱為task。每個spout和bolt都可以有多個不同的實例運行在不同的線程中。(每一個task對應到一個線程)。

Workers:
    toplogy是在分散式環境下,多個worker節點上運行。storm將任務均勻分配在所有worker節點上。work節點的作用是監聽任務(jobs),當有新任務來時,啟動或停止任務的處理。每個worker是一個物理JVM並且執行整個topology的一部分。

Stream Grouping:
     流分組,是拓撲定義中的一部分,為每個bolt指定應該接收哪個流作為輸入。流分組定義流/元組如何在bolt的任務之間進行分發。

感謝您閱讀上海大數據培訓文章,
更多推薦閱讀:
【上海大數據培訓】storm集群架構
【上海大數據培訓】storm如何分配任務和負載均衡


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 貼上內容來源https://www.cnblogs.com/Alier/p/6358447.html 1 備份原來的更新源 2 修改更新源 打開sources.list (這就是存放更新源的文件) 將下麵所有內容複製,粘貼並覆蓋sources.list文件中的所有內容 3 讓更新源生效 ...
  • 本文收錄在Linux運維企業架構實戰系列 做了幾周的測試,踩了無數的坑,總結一下,全是乾貨,給大家分享~ 一、elk 實用知識點總結 1、編碼轉換問題(主要就是中文亂碼) (1)input 中的codec => plain 轉碼 將GB2312 的文本編碼,轉為UTF-8 的編碼 (2)也可以在fi ...
  • SecureCRT 是一款非常好用的遠程終端連接軟體,且支持 Windows/Linux/macOS 全平臺。由於現在工作平臺主要在 Linux 系統上,SecureCRT 也是必備軟體。一開始安裝的是 Ubuntu 16.04 LTS,但用了了一段時間還是不喜歡 Unity 的界面,自己也是一個喜 ...
  • 本文為mariadb官方手冊:SET Variable的譯文。 原文:https://mariadb.com/kb/en/set-variable/我提交到MariaDB官方手冊的譯文:https://mariadb.com/kb/zh-cn/set-variable/ 語法 存儲程式stored ...
  • pt-table-checksum和pt-table-sync分別檢驗master-slave的數據不一致並修複。 1、本次測試環境 2、 3、開始檢測差異 1)創建一個用戶,可以訪問master和slave,master上執行如下的創建用戶命令 構造master-slave的差異環境,slave同 ...
  • redis中的很多操作都是基於上面介紹的redis對象,瞭解這些對象的底層實現,可以為之後更多的redis特性做準備。 ...
  • 我們通常是使用 某條件 是否包含於 某列中 ,簡單點 就是:select * from 表名 where 欄位名 like '%條件數據%'; 現在說下 某列 被包含於 條件數據中 接下來看查詢結果 可以看出 過濾掉330302,4401數據 ...
  • 其實這篇文章應該至少一個星期前就應該更新了,但是最近小猿我和喜歡了好多年的女神牽手成功,所以這些天有點飄。 聚集函數 最經常用過的聚集函數也就 avg 平均值 sum 求和 min 最小值 max 最大值 count 記錄數 分組聚集 Group by 對於Group by只要記住如果Group b ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...