Hadoop基礎知識_ZenDei技術網路在線

Hadoop基礎知識

-Advertisement-

《原創，僅供學習交流》在關聯規則的研究中，有很多串列的演算法，經典的是Apriori演算法和FP_growth演算法。也有很多並行演算法，如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、F ...

《原創，僅供學習交流》

在關聯規則的研究中，有很多串列的演算法，經典的是Apriori演算法和FP_growth演算法。也有很多並行演算法，

如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、FDM和 FMAGF等。

串列演算法的瓶頸之一是挖掘效率慢，而並行演算法解決了挖掘效率的問題，但是由於並行計算是由很多計算節點組成，存在節點失效、負載不易均衡帶來的問題。

因此，Hadoop的出現，是大數據時代進行數據挖掘的一大利器。

Hadoop是一個分散式基礎架構，可以在不瞭解分散式底層細節的情況下，開發分散式或並行應用程式，充分利用集群的威力高速運算和存儲，它也是雲計算的主要架構之一． Hadoop 具有以下特點:

1) 擴容能力: 能可靠地存儲和處理PB級別數據。數據級別前面有總結。（存儲優勢）

2) 成本低: 可以通過普通電腦組成的集群來分佈處理數據。（分佈在各個Map上）

3) 高效率: 通過分發數據，Hadoop 可以並行地的處理數據，這使得處理非常的快速。（並行）

4) 可靠性：Hadoop 能自動地維護數據的多份複製，並且在任務失敗後能自動地重新部署計算任務。（有效處理節點失效和節點負載均衡方面問題）

因此，基於Hadoop平臺的並行數據挖掘是一個很好的途徑。一是基於Hadoop對經典的串列關聯規則演算法進行改進，朝並行的方向努力。而是基於Hadoop對經典的並行關聯挖掘演算法進行改進，因為基於Hadoop比單獨開發並行運行的挖掘程式簡單許多。

為的是使演算法更好的與平臺結合，達到更好的數據挖掘效果。

文獻有 CD演算法的並行化，Apriori演算法的並行化以及FP-growth演算法的並行化。（後續學習各個詳細的優化並行演算法）

展開學習：（數據結構和演算法，Hadoop基礎和高級編程，R語言基礎）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Glide源碼導讀

在這篇文章里，我會介紹下Glide中的一些關鍵概念，並走一遍圖片載入流程，如果你要閱讀Glide源碼的話，應該多少會有點幫助。 ...
__block 和 __weak的區別

Blocks理解： Blocks可以訪問局部變數，但是不能修改如果修改局部變數，需要加__block 2、如果局部變數是數組或者指針的時候只複製這個指針，兩個指針指向同一個地址,block只修改指針上的內容。如：例子裡面確實沒有修改mArrayCount這個局部變數啊。mArrayCount是一 ...
【java學習系列】 Android第一本書《第一行代碼》

開始Java的學習，從Android，開始吧。《第一代碼》開始閱讀和調試demo例子。下麵是《第一行代碼》的思維導圖： ...
Android 從Gallery獲取圖片

本文主要介紹Android中從Gallery獲取圖片設計項目佈局打開packages\apps\Gallery下的清單文件，可以看到其中包含下麵的代碼：邏輯部分代碼如下： ...
hadoop(四): 本地 hbase 集群配置 Azure Blob Storage

基於 HDP2.4安裝(五)：集群及組件安裝創建的hadoop集群，修改預設配置，將hbase 存儲配置為 Azure Blob Storage 目錄：簡述配置驗證簡述： hadoop-azure 提供hadoop 與 azure blob storage 集成支持，需要部署 hadoop ...
基於HDInsight 3.4 HBase集群規劃參考

基於linux 創建HDInsight HBase集群，選擇最小配置，zk(3)、NN（2）、WN（2），集群節點預設組件服務規劃如下 NN0: Active NameNode /HDFS ZKFailoverController/HDFS App Timeline Server /YARN Act ...
Spark SQL -- Hive

使用Saprk SQL 操作Hive的數據前提準備： 1、啟動Hdfs，hive的數據存儲在hdfs中; 2、啟動hive -service metastore，元數據存儲在遠端，可以遠程訪問; 3、在spark的conf目錄下增加hive-site.xml配置文件，文件內容：編寫Scala測試 ...
欄位值包含一批連續的字元串

1 begin 2 3 declare @i int ; 4 5 set @i=77541214; 6 7 update dbo.test set code='AMHD'+CONVERT(varchar,@i),@i=@i+1; 8 9 end ...