往大數據方向發展需要學哪些技術?網上一搜真是指不勝屈。對於小白來說,實在是一頭霧水,到底哪些是當下流行的?哪些是必須要先學會的?流行?主次搞不清。為瞭解決這些疑惑,羚羊專門花了些時間, 挨個技術去研究對比歸類,大概總結出以下的技術點: 文件存儲: Hadoop HDFS、GFS、KFS、Tachyo ...
往大數據方向發展需要學哪些技術?網上一搜真是指不勝屈。對於小白來說,實在是一頭霧水,到底哪些是當下流行的?哪些是必須要先學會的?流行?主次搞不清。為瞭解決這些疑惑,羚羊專門花了些時間, 挨個技術去研究對比歸類,大概總結出以下的技術點:
文件存儲: Hadoop HDFS、GFS、KFS、Tachyon
離線計算: Hadoop MapReduce、Spark
流式、實時計算:flink、Storm、JStorm、Spark Structured Streaming、Heron、Spark Streaming
存儲格式:kudu、ORC、Apache Parquet、CarbonData
資料庫: HBase、Redis、MongoDB、Couchbase、LevelDB、Apache Cassandra、Ignite、TiDB
資源管理: YARN、Mesos
日誌收集: Flume、Scribe、Logstash、FileBeat
消息系統: Kafka、StormMQ、ZeroMQ、RabbitMQ、Confluent Platform
線上、離線查詢搜索分析: Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid、ClickHouse、Elasticsearch
數據可視化查詢分析工具:Apache Zeppelin、Kibana
分散式協調服務:Zookeeper
集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager
數據同步: Sqoop、DataX、Cannal、Maxwell、Debezium、DataBus
任務調度: Azkaban、Oozie
數據安全:Apache Eagle
機器學習、數據挖掘:Spark MLLib、Mahout
下圖是羚羊根據當下流行的大數據技術點,結合之前的項目經驗,基於HDFS文件系統搭建了一個基本的、通用的完整大數據平臺技術架構。一切的技術都是來源於不同的需求場景,所以根據不同的產品需求搭建出來的技術架構也會有差異。
【版權聲明】
本文版權歸作者(深圳伊人網網路有限公司)和博客園共有,歡迎轉載,但未經作者同意必須在文章頁面給出原文鏈接,否則保留追究法律責任的權利。如您有任何商業合作或者授權方面的協商,請給我留言:[email protected]