實時流處理與分散式存儲過程中對文件的操作

来源:https://www.cnblogs.com/readbyte/archive/2022/04/04/16100177.html
-Advertisement-
Play Games

這兩天都是在跟文件打交道,很有趣,每一步都不會順心如意,但每一步的解決都有所獲益,首先是對文件變化的監測,能找到很多辦法,例如通過ELK家族的Filebeat工具來探測,但是外部工具不好融合進Storm,最好是自己寫Java程式來監測。 引入Java NIO 監控文件 其實jdk7以上版本就有一個比 ...


這兩天都是在跟文件打交道,很有趣,每一步都不會順心如意,但每一步的解決都有所獲益,首先是對文件變化的監測,能找到很多辦法,例如通過ELK家族的Filebeat工具來探測,但是外部工具不好融合進Storm,最好是自己寫Java程式來監測。

引入Java NIO 監控文件

其實jdk7以上版本就有一個比較不錯的選擇,那就是nio包里的WatchService監控器,我覺得它有兩方面的優點,其一就是由操作系統的信號通知機制,當文件目錄中出現變化就發信號給應用層監控器,那麼這種由操作系統主動通知的效率就遠好於應用程式對文件的反覆輪巡,而且不占用過多系統資源;其二編程模型並不採用觀察者模式註冊監聽器的方案,而是將多線程問題隱藏起來,客戶端對api採取迴圈阻塞的直觀調用,這就非常有利於嵌入到各種運行容器當中去執行文件採集監控。

另外監測文件變化後按行採集變化記錄我採用了RadmonAccessFile對象,這個文件操作對象常用於斷點續傳此類的需求,很方便,關鍵要設計一個可持久化的位移記錄文件,保證採集器重啟後總能從未讀取的最新變化數據點位置開始採集數據。如下圖所示:

文件監控與採集功能嵌入Storm集群之後又出現了一個新問題,那就是Storm spout實例不會如你所願地運行在指定的機器上,而是完全由Storm集群隨機地在節點上指定運行,但被監測的文件位置是固定的,反正總有笨辦法:當Storm集群啟動後,確定spout運行的機器節點,再由該機器執行cdc文件輸出程式,但是這樣耦合性太強,必須跟隨Storm對spout實例的安排而變化採集位置,維護管理就會很麻煩,而且很容易出錯。

引入分散式文件系統

因此我就引出了一個新的假設:通過分散式文件系統(dfs)來解決此問題,但是dfs的選型很重要,Hadoop hdfs肯定不行,它脫離了普通文件系統的操作方式,最終我挑選了兩款dfs,一是ClusterFS,二是MooseFS,它們都具有fuse結合功能,通過Mount dfs到本地目錄的方式,讓訪問dfs如同訪問本地目錄文件一樣無縫結合,dfs的任一客戶端節點對文件的修改,都會在所有dfs客戶端節點上被通知,因此我讓Storm的所有節點都成為dfs的客戶端,這樣無論spout隨機運行在任何節點上,都可以在本節點的相同目錄中去訪問dfs中的被監測的文件,同時被監測文件還具有了多副本的高可靠性。

這種解決分散式計算過程中與分散式存儲結合的方案,也就是Storm計算節點由於是集群動態分配位置,無法固定住Storm spout的文件採集位置,因此我選擇了分散式文件系統的思路,主要是利用了GlusterFS連接Linux fuse(用戶空間文件系統)的辦法,使得每一個spout節點都是dfs客戶端,那麼無論spout被分配在哪個節點,都可以通過監測並讀取本節點的GlusterFS客戶端掛載(mount)的目錄來實現對PostgreSQL cdc輸出文件副本的數據採集。

但是測試中發現一個大bug,讓我虎軀一震,bug原因分析:

制服Bug的藝術

內置在spout中的Java文件監控器(WatchService)監控目錄變化是通過操作系統傳遞來的信號驅動的,這樣spout就可以等待式文件變化實現監控,可是我想當然的以為就算PostgreSQL cdc輸出節點與spout文件採集監控節點不是一臺機器也可以,只要通過分散式文件系統同步副本,spout節點就一定能感知到當前目錄副本的變化,事實上我錯了,spout中的watchservice根本就感知不到目錄副本的變化,因此想要得到操作系統的文件變化信號通知,必須對文件目錄的讀寫是在一臺機器上,才會有文件變化信號發送給上層應用,我之前的測試正確僅僅是因為PostgreSQL輸出和spout監控是同一臺伺服器。

那麼問題就來了,我的假設就是spout不用考慮採集點的目錄位置,否則逆向根據storm集群分配好spout節點地址後才能進行pg監控,顯然這是顛倒流程了,又試過MooseFS和NFS,結果一樣,NFS還不如分散式文件系統高效。

當無路可走的時候,認為自己的假設即將失敗的時候,一個新的思路開啟了我的靈感,為什麼非要spout只設置1個並行度呢?按照參與Storm集群拓撲的工作數是3個,那就設置spout並行度為3,這樣每一個機器就都會有一個spout監控本地GlusterFS掛載目錄,那麼無論我的PostgreSQL cdc輸出程式是在哪個節點啟動,同時只會有一個spout感應到副本變化開始推送數據,其他都是wait,這樣就解決了問題,同樣也保證了即便是換一個節點進行PostgreSQL cdc文件輸出,前一個spout實例自然wait,新的spout就工作了,依然完美地保證了PostgreSQL cdc程式與spout的可靠性冗餘。

 

本文來自博客園,作者:程式員守護石,轉載請註明原文鏈接:https://www.cnblogs.com/readbyte/p/16100177.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 閱文時長 | 0.54分鐘 字數統計 | 876字元 主要內容 | 1、引言&背景 2、部分通用設計代碼 3、聲明與參考資料 『.Net MVC實現全局異常捕捉返回通用異常頁面的一種方式』 編寫人 | SCscHero 編寫時間 | 2022/4/3 PM11:54 文章類型 | 系列 完成度 | ...
  • 閱文時長 | 1.15分鐘 字數統計 | 1844.8字元 主要內容 | 1、引言&背景 2、部分設計分享 3、聲明與參考資料 『.Net MVC實現角色-API許可權驗證的一種方式』 編寫人 | SCscHero 編寫時間 | 2022/3/27 PM9:31 文章類型 | 系列 完成度 | 已完成 ...
  • 三類設計模式的對比 英文名 設計模式數量 用途、意義 創建型模式 Creational Pattern 5 創建型模式關註對象的創建過程,將對象的創建和使用分離,降低系統耦合度,讓設計方案更易於修改和擴展 結構型模式 Structural Pattern 7 結構型模式關註如何將類或對象組織在一起, ...
  • 問題描述 考慮這樣一個需求:畫布上的對象支持手勢操作,手勢操作模式有平移、縮放、旋轉,對象可以支持一種或多種手勢,如何定義這個手勢操作模式? 就像文件的許可權一樣,只讀、只寫、讀寫,手勢操作也可以這樣設計。將手勢操作模式定義為簡單的枚舉類型是不夠的,我們需要表示不同模式的組合,需要支持位運算,因此每個 ...
  • 系統調用 系統調用: 操作系統提供給用戶程式調用的一組“特殊”介面,用戶程式可以通過這組“特殊”介面來獲得操作系統內核提供的服務 為什麼用戶程式不能直接訪問系統內核提供的服務為了更好地保護內核空間,將程式的運行空間分為 內核空間 和 用戶空間(也就是常稱的內核態和用戶態),它們分別運行在不同的級別上 ...
  • Ubuntu系統報錯:The system is running in low-graphics mode 我遇到過兩次這種請況,這次解決了。很nice! 在csdn上搜到的大部分操作是: 滑鼠進入系統 使用快捷鍵 Ctrl+Alt+F1 進入用戶 輸入密碼 然後按照以下代碼進行 cd /etc/X ...
  • 在介紹網路模式之前,關於網路的幾個簡單命令的使用 ifup eth0 //啟動網卡eth0 ifdown eth0 //關閉網卡eth0 /etc/network/interfaces //網路配置文件 /etc/init.d/networking //網路服務位置 /etc/init.d/netw ...
  • 一、Hadoop概述 Hadoop是Apache軟體基金會下一個開源分散式計算平臺,以HDFS(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是資源調度框架,能夠細粒度的管理和調度任務,還能夠支持其他的計算框架,比如sp ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...