一、負責收集數據的工具:Sqoop(關係型數據導入Hadoop)Flume(日誌數據導入Hadoop,支持數據源廣泛)Kafka(支持數據源有限,但吞吐大) 二、負責存儲數據的工具:HBaseMongoDBCassandraAccumulo MySqlOracleDB2 HDFS(Hadoop Di ...
一、負責收集數據的工具:
Sqoop(關係型數據導入Hadoop)
Flume(日誌數據導入Hadoop,支持數據源廣泛)
Kafka(支持數據源有限,但吞吐大)
二、負責存儲數據的工具:
HBase
MongoDB
Cassandra
Accumulo
MySql
Oracle
DB2
HDFS(Hadoop Distribut File System)2.0
三、底層組件
Apache Common(通用模塊)、
Avro(序列化成二進位)、
OS(Linux、windows。。。)
四、通用工具
Zookeeper分散式協作服務
Oozie工作流流調度系統
Ambari圖形化部署、非xml,跟蹤集群狀態
五、分散式計算框架
MapReduce(通過磁碟離線計算)
Spark(通過記憶體實時計算)
Storm(實現流式數據計算)
Tez(GAG計算,對MR拆分)
Impala(實現實時互動式計算)
Flink、Slider、Open MPI
HCatalog
YARN(跨集群資源調度管理)以上各種計算框架架構在YAEN上,H2.0引入
六、數據分析處理
Hive數據倉庫
sql語句生成MR作業
Pig工作流引擎
類似sql比MR語法簡單
Mahout數據挖掘庫
提供了諸多機器學習演算法
Java、.net
R、Scala、Solr
Impapla、Ohter ISV
七、結果輸出
經過數據分析處理,輸出到BI工具、展示系統
ETL Tools
BI Reporting
RDBMS
OLAP