一、Flume概述 Flume是一種分散式、可靠且可用的服務,用於有效的收集、聚合和移動大量日誌文件數據。Flume具有基於流數據流的簡單靈活的框架,具有可靠的可靠性機制和許多故障轉移和恢復機制,具有強大的容錯能力。Flume使用簡單的的可擴展數據模型,迴圈線上分析應用程式。 二、Flume的作用 ...
一、Flume概述
Flume是一種分散式、可靠且可用的服務,用於有效的收集、聚合和移動大量日誌文件數據。Flume具有基於流數據流的簡單靈活的框架,具有可靠的可靠性機制和許多故障轉移和恢復機制,具有強大的容錯能力。Flume使用簡單的的可擴展數據模型,迴圈線上分析應用程式。
二、Flume的作用
數據的來源大致有三類:
1.爬蟲
2.日誌數據 =>使用Flume進行獲取傳輸
3.傳統資料庫 =>使用Sqoop進行數據遷移
三、Flume架構
1.source:數據源
接收webser端的數據,產生數據流
同時source將產生數據流傳輸到channel
2.channel:傳輸管道
用於橋接source和sinks
3.sinks:下沉
從channel接收數據,並傳輸到hdfs或下一個agent
4.agent:代理
一個agent中包含一組source,channel,sinks
四、Flume的安裝部署
1.從官網下載flume安裝包(本人使用的是1.6.0版本)
2.上次到linux中解壓
tar -zxvf ***.tar
3.重命名解壓縮的文件夾為flume,方便以後更新維護
4.進去flume下的conf文件夾,將文件flume-env.sh.template重命名為flume-env.sh
5.進去該文件,刪除java_home的註釋,並修改java路徑為本機的java_home路徑
export JAVA_HOME=/root/hd/jdk1.8.0_102
6.保存並退出,安裝完成!