Flume Spooldir 源的一些問題_ZenDei技術網路在線

Flume Spooldir 源的一些問題

-Advertisement-

（自己寫的插件，數據序列化，格式化拋出的異常都會導致flume停止，不能繼續取數據，異常可以自己處理）最近在用Flume做數據的收集。用到了裡面的Spooldir的源在使用中有如下的問題：如果文件的某一行有亂碼，不符合指定的編碼規範，那麼flume會拋出一個exception，然後就停在那兒 ...

（

自己寫的插件，數據序列化，格式化拋出的異常都會導致flume停止，不能繼續取數據，異常可以自己處理

）

最近在用Flume做數據的收集。用到了裡面的Spooldir的源在使用中有如下的問題：

如果文件的某一行有亂碼，不符合指定的編碼規範，那麼flume會拋出一個exception，然後就停在那兒了。
spooldir指定的文件夾中的文件一旦被修改，flume就會拋出一個exception，然後停在那兒了。

其實，flume的最大問題就是不夠魯棒。一旦出現問題，不能跳過，只能死在那兒。不知道flume為什麼要這麼設計。理論上，它應該允許我們在配置文件中指定在遇到錯誤的行時，是停止還是跳過，不過它目前並不支持這個。所以，我們只能寫一個自己的flume的插件了。

https://github.com/xlvector/flume
https://github.com/ponyma/flume

這個插件主要修複了前面提到的兩個問題：

如果某一行有亂碼，flume會忽略這一行
flume只會check最近N分鐘沒有修改過的文件

具體修改方法如下。首先，我們繼承了SpoolDirectorySource，實現了一個叫做RobustSpoolDirectorySource的類。這個類的代碼基本是拷貝了SpoolDirectorySource的代碼。但做瞭如下的修改。

在getNextFile()的函數中，我們發現了一個filter，做瞭如下的修改

FileFilter filter = new FileFilter() {
    public boolean accept(File candidate) {
        String fileName = candidate.getName();
        if ((candidate.isDirectory()) ||
            (fileName.endsWith(completedSuffix)) ||
            (fileName.startsWith(".")) ||
            ignorePattern.matcher(fileName).matches() ||
            (System.currentTimeMillis() - candidate.lastModified() < 600000)) {
            return false;
        }
        return true;
    }
};

這裡，我們加入了一個條件

(System.currentTimeMillis() - candidate.lastModified() < 600000)

也就是說10分鐘之內修改過的文件我們不會處理。

第二個修改是關於編碼的，你可以在ReliableSpoolingFileEventReader.java的代碼中找到如下的代碼：

ResettableInputStream in =
    new ResettableFileInputStream(nextFile, tracker,
        ResettableFileInputStream.DEFAULT_BUF_SIZE, inputCharset,
        DecodeErrorPolicy.FAIL);

這裡，我們只需要將DecodeErrorPolicy 改成 DecodeErrorPolicy.IGNORE 即可。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

矽谷商城第二版1--主框架

運行截圖：運行截圖： ...
用Anko和Kotlin實現Android上的對話框和警告提示（KAD 24）

原作者介紹 Anko與Kotlin 怎樣使提示框和對話框編寫變得更加簡單。 ...
[device tree] How to decompile a compiled .dtb (device tree blog) into .dts (device tree source).

Usage: dtc [options] <input file + I, in format <arg Input formats are: dts device tree source text dtb device tree blob fs /proc/device tree st ...
Android學習筆記-EditText(輸入框)(一)

文章參考自：http://www.runoob.com/w3cnote/android-tutorial-edittext.html 1.設置預設提示文本預設提示文本的兩個屬性如下：前者設置提示的文本內容，後者設置提示文本的顏色！ 2.獲得焦點後全選組件內所有文本內容當我們點擊想當我們的輸入框 ...
Android開發筆記（8）——調用子Activity

轉載請註明：http://www.cnblogs.com/igoslly/p/6853730.html 調用子Activity 需要子Activity返回值 MainActivity使用startActivityForResult方法 MainActivity使用startActivityForRe ...
MySQL5.5多實例編譯安裝——多配置文件

MySQL多實例簡單的說就是在一臺伺服器上安裝一套MySQL程式，通過不同的埠對外提供訪問，多實例不僅節省物理主機成本，還有效提升了單台物理主機的CPU、磁碟I/O使用效率，而且還可以在多實例之間做部署資料庫HA方案，根據不同的配置文件和啟動文件配置多實例，這種方法邏輯和配置簡單，但是不方便管理。 ...
Oracle學習筆記

一下是我學習Oracle時的基礎練習，涵蓋了編程中的重點知識！特別適合用來複習！轉載記得標註！！！ ...
用一條SQL語句查出每門課都大於80分的學生的姓名

用一條SQL語句查出每門課都大於80分的學生的姓名，數據表結構如下：建表SQL如下：查詢每門課都大於80分的同學的姓名：查詢平均分大於80的學生的姓名： ...