實時流處理與分散式存儲過程中對文件的操作

来源:https://www.cnblogs.com/readbyte/archive/2022/04/04/16100177.html
-Advertisement-
Play Games

這兩天都是在跟文件打交道,很有趣,每一步都不會順心如意,但每一步的解決都有所獲益,首先是對文件變化的監測,能找到很多辦法,例如通過ELK家族的Filebeat工具來探測,但是外部工具不好融合進Storm,最好是自己寫Java程式來監測。 引入Java NIO 監控文件 其實jdk7以上版本就有一個比 ...


這兩天都是在跟文件打交道,很有趣,每一步都不會順心如意,但每一步的解決都有所獲益,首先是對文件變化的監測,能找到很多辦法,例如通過ELK家族的Filebeat工具來探測,但是外部工具不好融合進Storm,最好是自己寫Java程式來監測。

引入Java NIO 監控文件

其實jdk7以上版本就有一個比較不錯的選擇,那就是nio包里的WatchService監控器,我覺得它有兩方面的優點,其一就是由操作系統的信號通知機制,當文件目錄中出現變化就發信號給應用層監控器,那麼這種由操作系統主動通知的效率就遠好於應用程式對文件的反覆輪巡,而且不占用過多系統資源;其二編程模型並不採用觀察者模式註冊監聽器的方案,而是將多線程問題隱藏起來,客戶端對api採取迴圈阻塞的直觀調用,這就非常有利於嵌入到各種運行容器當中去執行文件採集監控。

另外監測文件變化後按行採集變化記錄我採用了RadmonAccessFile對象,這個文件操作對象常用於斷點續傳此類的需求,很方便,關鍵要設計一個可持久化的位移記錄文件,保證採集器重啟後總能從未讀取的最新變化數據點位置開始採集數據。如下圖所示:

文件監控與採集功能嵌入Storm集群之後又出現了一個新問題,那就是Storm spout實例不會如你所願地運行在指定的機器上,而是完全由Storm集群隨機地在節點上指定運行,但被監測的文件位置是固定的,反正總有笨辦法:當Storm集群啟動後,確定spout運行的機器節點,再由該機器執行cdc文件輸出程式,但是這樣耦合性太強,必須跟隨Storm對spout實例的安排而變化採集位置,維護管理就會很麻煩,而且很容易出錯。

引入分散式文件系統

因此我就引出了一個新的假設:通過分散式文件系統(dfs)來解決此問題,但是dfs的選型很重要,Hadoop hdfs肯定不行,它脫離了普通文件系統的操作方式,最終我挑選了兩款dfs,一是ClusterFS,二是MooseFS,它們都具有fuse結合功能,通過Mount dfs到本地目錄的方式,讓訪問dfs如同訪問本地目錄文件一樣無縫結合,dfs的任一客戶端節點對文件的修改,都會在所有dfs客戶端節點上被通知,因此我讓Storm的所有節點都成為dfs的客戶端,這樣無論spout隨機運行在任何節點上,都可以在本節點的相同目錄中去訪問dfs中的被監測的文件,同時被監測文件還具有了多副本的高可靠性。

這種解決分散式計算過程中與分散式存儲結合的方案,也就是Storm計算節點由於是集群動態分配位置,無法固定住Storm spout的文件採集位置,因此我選擇了分散式文件系統的思路,主要是利用了GlusterFS連接Linux fuse(用戶空間文件系統)的辦法,使得每一個spout節點都是dfs客戶端,那麼無論spout被分配在哪個節點,都可以通過監測並讀取本節點的GlusterFS客戶端掛載(mount)的目錄來實現對PostgreSQL cdc輸出文件副本的數據採集。

但是測試中發現一個大bug,讓我虎軀一震,bug原因分析:

制服Bug的藝術

內置在spout中的Java文件監控器(WatchService)監控目錄變化是通過操作系統傳遞來的信號驅動的,這樣spout就可以等待式文件變化實現監控,可是我想當然的以為就算PostgreSQL cdc輸出節點與spout文件採集監控節點不是一臺機器也可以,只要通過分散式文件系統同步副本,spout節點就一定能感知到當前目錄副本的變化,事實上我錯了,spout中的watchservice根本就感知不到目錄副本的變化,因此想要得到操作系統的文件變化信號通知,必須對文件目錄的讀寫是在一臺機器上,才會有文件變化信號發送給上層應用,我之前的測試正確僅僅是因為PostgreSQL輸出和spout監控是同一臺伺服器。

那麼問題就來了,我的假設就是spout不用考慮採集點的目錄位置,否則逆向根據storm集群分配好spout節點地址後才能進行pg監控,顯然這是顛倒流程了,又試過MooseFS和NFS,結果一樣,NFS還不如分散式文件系統高效。

當無路可走的時候,認為自己的假設即將失敗的時候,一個新的思路開啟了我的靈感,為什麼非要spout只設置1個並行度呢?按照參與Storm集群拓撲的工作數是3個,那就設置spout並行度為3,這樣每一個機器就都會有一個spout監控本地GlusterFS掛載目錄,那麼無論我的PostgreSQL cdc輸出程式是在哪個節點啟動,同時只會有一個spout感應到副本變化開始推送數據,其他都是wait,這樣就解決了問題,同樣也保證了即便是換一個節點進行PostgreSQL cdc文件輸出,前一個spout實例自然wait,新的spout就工作了,依然完美地保證了PostgreSQL cdc程式與spout的可靠性冗餘。

 

本文來自博客園,作者:程式員守護石,轉載請註明原文鏈接:https://www.cnblogs.com/readbyte/p/16100177.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 閱文時長 | 0.54分鐘 字數統計 | 876字元 主要內容 | 1、引言&背景 2、部分通用設計代碼 3、聲明與參考資料 『.Net MVC實現全局異常捕捉返回通用異常頁面的一種方式』 編寫人 | SCscHero 編寫時間 | 2022/4/3 PM11:54 文章類型 | 系列 完成度 | ...
  • 閱文時長 | 1.15分鐘 字數統計 | 1844.8字元 主要內容 | 1、引言&背景 2、部分設計分享 3、聲明與參考資料 『.Net MVC實現角色-API許可權驗證的一種方式』 編寫人 | SCscHero 編寫時間 | 2022/3/27 PM9:31 文章類型 | 系列 完成度 | 已完成 ...
  • 三類設計模式的對比 英文名 設計模式數量 用途、意義 創建型模式 Creational Pattern 5 創建型模式關註對象的創建過程,將對象的創建和使用分離,降低系統耦合度,讓設計方案更易於修改和擴展 結構型模式 Structural Pattern 7 結構型模式關註如何將類或對象組織在一起, ...
  • 問題描述 考慮這樣一個需求:畫布上的對象支持手勢操作,手勢操作模式有平移、縮放、旋轉,對象可以支持一種或多種手勢,如何定義這個手勢操作模式? 就像文件的許可權一樣,只讀、只寫、讀寫,手勢操作也可以這樣設計。將手勢操作模式定義為簡單的枚舉類型是不夠的,我們需要表示不同模式的組合,需要支持位運算,因此每個 ...
  • 系統調用 系統調用: 操作系統提供給用戶程式調用的一組“特殊”介面,用戶程式可以通過這組“特殊”介面來獲得操作系統內核提供的服務 為什麼用戶程式不能直接訪問系統內核提供的服務為了更好地保護內核空間,將程式的運行空間分為 內核空間 和 用戶空間(也就是常稱的內核態和用戶態),它們分別運行在不同的級別上 ...
  • Ubuntu系統報錯:The system is running in low-graphics mode 我遇到過兩次這種請況,這次解決了。很nice! 在csdn上搜到的大部分操作是: 滑鼠進入系統 使用快捷鍵 Ctrl+Alt+F1 進入用戶 輸入密碼 然後按照以下代碼進行 cd /etc/X ...
  • 在介紹網路模式之前,關於網路的幾個簡單命令的使用 ifup eth0 //啟動網卡eth0 ifdown eth0 //關閉網卡eth0 /etc/network/interfaces //網路配置文件 /etc/init.d/networking //網路服務位置 /etc/init.d/netw ...
  • 一、Hadoop概述 Hadoop是Apache軟體基金會下一個開源分散式計算平臺,以HDFS(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是資源調度框架,能夠細粒度的管理和調度任務,還能夠支持其他的計算框架,比如sp ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...