Hadoop基礎知識

来源:http://www.cnblogs.com/XiaoErDuoFancy/archive/2016/09/05/5842058.html
-Advertisement-
Play Games

《原創,僅供學習交流》 在關聯規則的研究中,有很多串列的演算法,經典的是Apriori演算法和FP_growth演算法。也有很多並行演算法, 如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、F ...


《原創,僅供學習交流》

在關聯規則的研究中,有很多串列的演算法,經典的是Apriori演算法和FP_growth演算法。也有很多並行演算法,

如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、FDM和 FMAGF等。

串列演算法的瓶頸之一是挖掘效率慢,而並行演算法解決了挖掘效率的問題,但是由於並行計算是由很多計算節點組成,存在節點失效、負載不易均衡帶來的問題。

因此,Hadoop的出現,是大數據時代進行數據挖掘的一大利器。

Hadoop是一個分散式基礎架構,可以在不瞭解分散式底層細節的情況下,開發分散式或並行應用程式,充分利用集群的威力高速運算和存儲,它也是雲計算的主要架構之一. Hadoop 具有以下特點:

1) 擴 容 能 力: 能可靠地存儲和處理PB級別數據。數據級別前面有總結。(存儲優勢)

2) 成本低: 可以通過普通電腦組成的集群來分佈處理數據。(分佈在各個Map上)

3) 高效率: 通過分發數據,Hadoop 可以並行地的處理數據,這使得處理非常的快速。(並行)

4) 可靠性:Hadoop 能自動地維護數據的多份複製,並且在任務失敗後能自動地重新部署計算任務。(有效處理節點失效和節點負載均衡方面問題)

因此,基於Hadoop平臺的並行數據挖掘是一個很好的途徑。一是基於Hadoop對經典的串列關聯規則演算法進行改進,朝並行的方向努力。而是基於Hadoop對經典的並行關聯挖掘演算法進行改進,因為基於Hadoop比單獨開發並行運行的挖掘程式簡單許多。

為的是使演算法更好的與平臺結合,達到更好的數據挖掘效果。

文獻有 CD演算法的並行化,Apriori演算法的並行化以及FP-growth演算法的並行化。(後續學習各個詳細的優化並行演算法)

展開學習:(數據結構和演算法,Hadoop基礎和高級編程,R語言基礎)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在這篇文章里,我會介紹下Glide中的一些關鍵概念,並走一遍圖片載入流程,如果你要閱讀Glide源碼的話,應該多少會有點幫助。 ...
  • Blocks理解: Blocks可以訪問局部變數,但是不能修改 如果修改局部變數,需要加__block 2、如果局部變數是數組或者指針的時候只複製這個指針,兩個指針指向同一個地址,block只修改指針上的內容。如: 例子裡面確實沒有修改mArrayCount這個局部變數啊。mArrayCount是一 ...
  • 開始Java的學習,從Android,開始吧。《第一代碼》開始閱讀和調試demo例子。 下麵是 《第一行代碼》的思維導圖: ...
  • 本文主要介紹Android中從Gallery獲取圖片 設計項目佈局 打開packages\apps\Gallery下的清單文件,可以看到其中包含下麵的代碼: 邏輯部分代碼如下: ...
  • 基於 HDP2.4安裝(五):集群及組件安裝 創建的hadoop集群,修改預設配置,將hbase 存儲配置為 Azure Blob Storage 目錄: 簡述 配置 驗證 簡述: hadoop-azure 提供hadoop 與 azure blob storage 集成支持,需要部署 hadoop ...
  • 基於linux 創建HDInsight HBase集群,選擇最小配置,zk(3)、NN(2)、WN(2),集群節點預設組件服務規劃如下 NN0: Active NameNode /HDFS ZKFailoverController/HDFS App Timeline Server /YARN Act ...
  • 使用Saprk SQL 操作Hive的數據 前提準備: 1、啟動Hdfs,hive的數據存儲在hdfs中; 2、啟動hive -service metastore,元數據存儲在遠端,可以遠程訪問; 3、在spark的conf目錄下增加hive-site.xml配置文件,文件內容: 編寫Scala測試 ...
  • 1 begin 2 3 declare @i int ; 4 5 set @i=77541214; 6 7 update dbo.test set code='AMHD'+CONVERT(varchar,@i),@i=@i+1; 8 9 end ...
一周排行
    -Advertisement-
    Play Games
  • 前言 微服務架構已經成為搭建高效、可擴展系統的關鍵技術之一,然而,現有許多微服務框架往往過於複雜,使得我們普通開發者難以快速上手並體驗到微服務帶了的便利。為瞭解決這一問題,於是作者精心打造了一款最接地氣的 .NET 微服務框架,幫助我們輕鬆構建和管理微服務應用。 本框架不僅支持 Consul 服務註 ...
  • 先看一下效果吧: 如果不會寫動畫或者懶得寫動畫,就直接交給Blend來做吧; 其實Blend操作起來很簡單,有點類似於在操作PS,我們只需要設置關鍵幀,滑鼠點來點去就可以了,Blend會自動幫我們生成我們想要的動畫效果. 第一步:要創建一個空的WPF項目 第二步:右鍵我們的項目,在最下方有一個,在B ...
  • Prism:框架介紹與安裝 什麼是Prism? Prism是一個用於在 WPF、Xamarin Form、Uno 平臺和 WinUI 中構建鬆散耦合、可維護和可測試的 XAML 應用程式框架 Github https://github.com/PrismLibrary/Prism NuGet htt ...
  • 在WPF中,屏幕上的所有內容,都是通過畫筆(Brush)畫上去的。如按鈕的背景色,邊框,文本框的前景和形狀填充。藉助畫筆,可以繪製頁面上的所有UI對象。不同畫筆具有不同類型的輸出( 如:某些畫筆使用純色繪製區域,其他畫筆使用漸變、圖案、圖像或繪圖)。 ...
  • 前言 嗨,大家好!推薦一個基於 .NET 8 的高併發微服務電商系統,涵蓋了商品、訂單、會員、服務、財務等50多種實用功能。 項目不僅使用了 .NET 8 的最新特性,還集成了AutoFac、DotLiquid、HangFire、Nlog、Jwt、LayUIAdmin、SqlSugar、MySQL、 ...
  • 本文主要介紹攝像頭(相機)如何採集數據,用於類似攝像頭本地顯示軟體,以及流媒體數據傳輸場景如傳屏、視訊會議等。 攝像頭採集有多種方案,如AForge.NET、WPFMediaKit、OpenCvSharp、EmguCv、DirectShow.NET、MediaCaptre(UWP),網上一些文章以及 ...
  • 前言 Seal-Report 是一款.NET 開源報表工具,擁有 1.4K Star。它提供了一個完整的框架,使用 C# 編寫,最新的版本採用的是 .NET 8.0 。 它能夠高效地從各種資料庫或 NoSQL 數據源生成日常報表,並支持執行複雜的報表任務。 其簡單易用的安裝過程和直觀的設計界面,我們 ...
  • 背景需求: 系統需要對接到XXX官方的API,但因此官方對接以及管理都十分嚴格。而本人部門的系統中包含諸多子系統,系統間為了穩定,程式間多數固定Token+特殊驗證進行調用,且後期還要提供給其他兄弟部門系統共同調用。 原則上:每套系統都必須單獨接入到官方,但官方的接入複雜,還要官方指定機構認證的證書 ...
  • 本文介紹下電腦設備關機的情況下如何通過網路喚醒設備,之前電源S狀態 電腦Power電源狀態- 唐宋元明清2188 - 博客園 (cnblogs.com) 有介紹過遠程喚醒設備,後面這倆天瞭解多了點所以單獨加個隨筆 設備關機的情況下,使用網路喚醒的前提條件: 1. 被喚醒設備需要支持這WakeOnL ...
  • 前言 大家好,推薦一個.NET 8.0 為核心,結合前端 Vue 框架,實現了前後端完全分離的設計理念。它不僅提供了強大的基礎功能支持,如許可權管理、代碼生成器等,還通過採用主流技術和最佳實踐,顯著降低了開發難度,加快了項目交付速度。 如果你需要一個高效的開發解決方案,本框架能幫助大家輕鬆應對挑戰,實 ...