大數據學習路線，來qun里分享乾貨，

-Advertisement-

一、Linux lucene：全文檢索引擎的架構 solr：基於lucene的全文搜索伺服器，實現了可配置、可擴展並對查詢性能進行了優化，並且提供了一個完善的功能管理界面。推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程，專註大數據分析方法,大數據編程 ...

一、Linux

lucene：全文檢索引擎的架構

solr：基於lucene的全文搜索伺服器，實現了可配置、可擴展並對查詢性能進行了優化，並且提供了一個完善的功能管理界面。

推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程，專註大數據分析方法,大數據編程，大數據倉庫，大數據案例，人工智慧,數據挖掘都是純乾貨分享，

二、Hadoop

HDFS：分散式存儲系統，包含NameNode，DataNode。NameNode：元數據，DataNode。DataNode：存數數據。

yarn：可以理解為MapReduce的協調機制，本質就是Hadoop的處理分析機制，分為ResourceManager NodeManager。

MapReduce：軟體框架，編寫程式。

Hive：數據倉庫可以用SQL查詢，可以運行Map/Reduce程式。用來計算趨勢或者網站日誌，不應用於實時查詢，需要很長時間返回結果。

HBase：資料庫。非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據併進行消息實時的分析

ZooKeeper：針對大型分散式的可靠性協調系統。Hadoop的分散式同步等靠Zookeeper實現，例如多個NameNode，active standby切換。

Sqoop：資料庫相互轉移，關係型資料庫和HDFS相互轉移

Mahout：可擴展的機器學習和數據挖掘庫。用來做推薦挖掘，聚集，分類，頻繁項集挖掘。

Chukwa：開源收集系統，監視大型分散式系統，建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari：用於配置、管理和監視Hadoop集群，基於Web，界面友好。

三、Cloudera

Cloudera Manager：管理監控診斷集成

Cloudera CDH：(Cloudera's Distribution，including Apache Hadoop) Cloudera對Hadoop做了相應的改變，發行版本稱為CDH。

Cloudera Flume：日誌收集系統，支持在日誌系統中定製各類數據發送方，用來收集數據。

Cloudera Impala：對存儲在Apache Hadoop的HDFS，HBase的數據提供直接查詢互動的SQL。

Cloudera hue： web管理器，包括hue ui，hui server，hui db。hue提供所有CDH組件的shell界面的介面，可以在hue編寫mr。

四、機器學習/R

R：用於統計分析、繪圖的語言和操作環境，目前有Hadoop-R

mahout：提供可擴展的機器學習領域經典演算法的實現，包括聚類、分類、推薦過濾、頻繁子項挖掘等，且可通過Hadoop擴展到雲中。

五、storm

Storm：分散式，容錯的實時流式計算系統，可以用作實時分析，線上機器學習，信息流處理，連續性計算，分散式RPC，實時處理消息並更新資料庫。

Kafka：高吞吐量的分散式發佈訂閱消息系統，可以處理消費者規模的網站中的所有動作流數據（瀏覽，搜索等）。相對Hadoop的日誌數據和離線分析，可以實現實時處理。目前通過Hadoop的並行載入機制來統一線上和離線的消息處理

Redis：由c語言編寫，支持網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

六、Spark

Scala：一種類似java的完全面向對象的編程語言。

jblas：一個快速的線性代數庫（JAVA）。基於BLAS與LAPACK，矩陣計算實際的行業標準，並使用先進的基礎設施等所有的計算程式的ATLAS藝術的實現，使其非常快。

Spark： Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架，除了Hadoop MapReduce所具有的優點，但不同於MapReduce的是job中間輸出結果可以保存在記憶體中，從而不需要讀寫HDFS，因此Spark能更好的適用於數據挖掘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop文件系統並行運作，用過Mesos的第三方集群框架可以支持此行為。

Spark SQL： 作為Apache Spark大數據框架的一部分,可用於結構化數據處理並可以執行類似SQL的Spark數據查詢

Spark Streaming：一種構建在Spark上的實時計算框架，擴展了Spark處理大數據流式數據的能力。

Spark MLlib： MLlib是Spark是常用的機器學習演算法的實現庫，目前(2014.05)支持二元分類，回歸，聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎演算法。MLlib以來jblas線性代數庫，jblas本身以來遠程的Fortran程式。

Spark GraphX： GraphX是Spark中用於圖和圖並行計算的API，可以在Spark之上提供一站式數據解決方案，可以方便且高效地完成圖計算的一整套流水作業。

Fortran：最早出現的電腦高級程式設計語言，廣泛應用於科學和工程計算領域。

BLAS：基礎線性代數子程式庫，擁有大量已經編寫好的關於線性代數運算的程式。

LAPACK：著名的公開軟體，包含了求解科學與工程計算中最常見的數值線性代數問題，如求解線性方程組、線性最小二乘問題、特征值問題和奇異值問題等。

ATLAS： BLAS線性演算法庫的優化版本。

Spark Python： Spark是由scala語言編寫的，但是為了推廣和相容，提供了java和python介面。

六、Python

Python: 一種面向對象的、解釋型電腦程式設計語言。

七、雲計算平臺

Docker：開源的應用容器引擎

kvm： (Keyboard Video Mouse)

openstack：開源的雲計算管理平臺項目

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

龍芯1D晶元中文手冊,龍芯1D用戶手冊

龍芯1D是超聲波熱表、水錶和氣表測量專用 SoC 晶元。該晶元集成超聲波時間測量、超聲波脈衝發生器、溫度測量單元、CPU、串口、紅外收發器、段式LCD 控制器、電壓檢測單元、空管檢測單元、超聲波換能器斷線檢測等功能部件，配合完善的編程、模擬、調試環境，將會大大簡化超聲波熱表測量系統的軟硬體設計。龍 ...
Vim編輯器常用命令

Vim編輯器作用：編輯文本文檔的（但預設是沒有安裝的）需要yum進行安裝啟動方式 vim 文件名字有三種模式：命令模式，末行模式，輸入模式命令模式：只能查看內容輸入模式：可以對內容進行修改末行模式：可以對內容執行命令 i ：在游標所在位置的前方插入字元 a ：在游標所在位置的後方插入字元 ...
MS SQL PIVOT數據透視表

以前曾經做過練習《T-SQL PIVOT 行列轉換》https://www.cnblogs.com/insus/archive/2011/03/05/1971446.html 今天把拿出來，再練習。以前透視列，需要手動指定。是否可以動態拿到呢？看看下麵的演示：在實現之前，得先參考這篇《列值轉換 ...
Select 查詢語句

select 用於從數據看查詢數據。語法 * 是通配符表示查詢所有欄位。如果要查特定的欄位時，不要使用*，影響查詢效率。 1.1.2 distinct 去重把重覆性的記錄去掉，只保留一條。修飾多欄位時，多個欄位的值都不一樣才保留。 1.1.3 where 子句 where 表示查詢的條件。 [1 ...
安裝SQL資料庫時遇到問題。需要更新以前的visual studio 2010實例

安裝SQL資料庫時遇到問題。需要更新以前的visual studio 2010實例此電腦安裝了需要service pack 1更新的visual 2010，必須安裝此更新才能成功安裝選擇的SQL server 功能。若要繼續，從SQL介質或者從http://go.microsoft.com/fwl ...
oracle自增主鍵

本文參考-https://www.cnblogs.com/xxaxx/p/3584036.html oracle沒有像sqlserver中identity一樣的函數，需要依賴於序列、觸發器來實現自增主鍵。創建表 Create table t_user( pk_user number(6), use ...
MySQL知識篇-SQL2

1 資料庫基本操作？ (1) 查看資料庫 show databases; (2)切換到指定的資料庫 use dbname; (3)創建資料庫 create database 庫名 charset=utf8; (4)刪除資料庫 drop database 庫名; 2 數據表基本操作？ (1) 查看當前 ...
獲取表的結構數據

在動態編程中，我們需要獲取表的結構數據，如表名，數據類型，精度等數據。你可以參考下麵幾行代碼： DECLARE @table_Name SYSNAME = 'Q' SELECT t.TABLE_NAME, c.COLUMN_NAME, c.DATA_TYPE, c.NUMERIC_PRECISION ...