Storm是什麼

来源:https://www.cnblogs.com/cjsblog/archive/2018/01/30/8385869.html
-Advertisement-
Play Games

Why use Storm? Apache Storm是一個免費的開源的分散式實時計算系統。Storm使得可靠的實時處理無邊界的數據量變得很容易,就如同Hadoop做批處理那樣。Storm很簡單,可以用任意的編程語言。 Storm有許多使用案例:實時分析、線上機器學習、持續的計算、分散式RPC、ET ...


Why use Storm?

Apache Storm是一個免費的開源的分散式實時計算系統。Storm使得可靠的實時處理無邊界的數據量變得很容易,就如同Hadoop做批處理那樣。Storm很簡單,可以用任意的編程語言。

Storm有許多使用案例:實時分析、線上機器學習、持續的計算、分散式RPC、ETL等等。Storm很快速:每個節點每秒鐘可以處理一百萬個元組。它是可伸縮的、容錯的,保證你的數據將會被處理,並且很容易操作。

Storm集成了隊列和資料庫技術。一個Storm拓撲結構以任意複雜的方式消費並處理數據流,在計算的每一個階段會重新分區數據流。

Concepts

Topologies

一個實時應用程式的邏輯被打包成一個Storm topology。Storm topology和MapReduce的Job很類似。一個最關鍵的不同在於,一個MapReduce的Job最終會結束,而一個topology是永遠運行的(除非你手動殺死它)。一個topology是一個由spouts和bolts以及將它們連接起來的stream grouping構成的圖。

Streams

Stream是Storm中的核心抽象。一個Stream是一個無邊界的元組序列。Stream是由元組中的命名欄位被定義的。預設情況下,元組可以包含integers, longs, shorts, bytes, strings, doubles, floats, booleans, and byte arrays。你也可以定義自己的序列化方式。

每一個Stream在被聲明的時候都會給定一個id。

Spouts

在一個topology中,spouts是流的來源。一般而言,spout從外部的源中讀取元組,並將其發送到topology中。Spout可以是可靠的,也可以是不可靠的。一個可靠的spout是如果在Storm中處理失敗的話它會重新放一個元組,而不可靠的spout在它發送這個元組以後就忘記它了。

Spouts可以發送到一個或者多個Stream。為了這樣做,在聲明多個stream的時候OutputFieldsDeclarer的declareStream方法。

Spout中的主要方法是nextTuple。nextTuple發送一個新的元組到topology中或者沒有新的元組的時候簡單的返回。另一個重要的方法是ack和fail。

Bolts

Topologies中的所有處理都是由Bolts來做的。Bolts可以做許多事情,比如:過濾、聚集、連接數據等等。

Bolts可以做簡單的流轉換,複雜的流轉換通常需要多步,因此也需要多個bolts。

當你聲明瞭一個bolt的輸入流的時候,你總是會訂閱來自其它組件的特別的流。如果你想訂閱所有組件的流,那麼你必須一個一個的訂閱。

bolt的主要方法是execute

Stream groupings

一個stream grouping是定義流應該怎樣被分區到bolt的task中去。

  1. Shuffle grouping:元組被隨機分配到task中去,因此每個bolt可以保證獲得相等數量的元組
  2. Fields grouping:按特定的欄位分區。例如,"user-id"相同的元組總是被分到相同的task中去
  3. Partial Key grouping:跟Fields grouping類似,只不過會考慮下游的bolts的負載均衡
  4. All grouping:流會被覆制,並且分發給所有的bolt
  5. Global grouping:整個流只進入到一個bolt的task。特別的,將進入到id最小的那個task
  6. None grouping:你不關心怎麼分組。等價於Shuffle grouping
  7. Direct grouping:元組的生產者決定哪些消費者任務可以收到這個元組
  8. Local or shuffle grouping:如果目標bolts在相同的worker中有一個或者多個task,元組將會被隨機分配到這些任務中

Reliability

Storm保證每個spout元組被完全處理。這是通過跟蹤由每個元組觸發的元組樹實現的

Tasks

每一個spout和bolt都執行很多tasks,每一個task對應執行的一個線程,stream grouping定義元組怎麼從一個task到另一個task。

Workers

Topologies執行一個或多個worker進程。每個worker進程是一個物理的JVM。

 

參考 http://storm.apache.org/index.html

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • mysql社區版安裝配置步驟較繁瑣,幾經搜索之後才成功安裝,此文將所有的安裝步驟及安裝過程中遇到的問題進行了總結 1. 下載MySQL社區版 最新版下載地址:https://dev.mysql.com/downloads/mysql/ 歷史版本:https://downloads.mysql.com ...
  • > SpringHadoop是通過Spring框架來調用hdfs,跟直接調用hdfs的最大的不同區別是Spring通過依賴註入的方式生成操作hdfs所需要的configuration和filesystem對象,其他所有調用hdfs的api不變#### 1.在項目的main目錄下創建resources... ...
  • 現象: 啟動MySQL資料庫提示: Failed to start mysqld.service: Unit not found 原因: 知乎: CentOS 7為什麼放棄了MySQL,而改使用MariaDB? 百度: 解決方案: 安裝mysql的作者另起爐竈的開源版本:maria DB (mari... ...
  • redis配置文件 配置文件對單位大小寫不敏感 tcp-backlog 511 高併發環境連接數 tcp-keepalive 單位為秒 0 表示不會進行keepalive檢測,,,建議設置為60 redis密碼設置 config get requirepass 查看 設置密碼 config set ...
  • 在上一篇中提到了數據類型 ,在本章中就具體說說這幾種數據類型: sting :set /get / del / append /strlen 簡單的對key-->value 寫入讀取刪除增減 incr / decr / incrby / decrby / 對value值增加或者減少 (只針對數字,其 ...
  • 一、yum安裝MariaDB並啟動 二、按案例建立目錄並設置屬主屬組 將配置文件和資料庫按案例存放 設置目錄屬主屬組 三、建立資料庫文件 四、配置文件 修改配置文件 3307 3308也是一樣,需要改埠和目錄位置 五、服務腳本 設置許可權 3307,3308也是一樣,需改埠號 六、啟動服務(註意需 ...
  • 子查詢或內部查詢或嵌套查詢在另一個SQL查詢的查詢和嵌入式WHERE子句中。 子查詢用於返回將被用於在主查詢作為條件的數據,以進一步限制要檢索的數據。 子查詢可以在SELECT,INSERT,UPDATE使用,而且隨著運算符如DELETE語句 =, <, >, >=, <=, IN, BETWEEN ...
  • redis安裝 ubuntu: apt-get install redis-server redis服務 :redis-server 啟動客戶端 :redis-cli redis簡單知識初步: 0.redis 文檔 :http://doc.redisfans.com/ 1.redis為單進程2.re ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...