一、Hadoop是什麼? 首次聽到hadoop這次單詞,相信很多人跟我當時是一樣,不免心中畫上一個大大的問號——這是什麼東西?Hadoop是什麼?百度百科的解釋是:Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。換句話說就是hadoop是一個能夠對大量數據進行分散式處理的軟體框架。 ...
一、Hadoop是什麼?
首次聽到hadoop這次單詞,相信很多人跟我當時是一樣,不免心中畫上一個大大的問號——這是什麼東西?Hadoop是什麼?百度百科的解釋是:Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。換句話說就是hadoop是一個能夠對大量數據進行分散式處理的軟體框架。
Hadoopd之所謂會誕生,主要是由於進入到大數據時代,電腦需要處理的數據量太過龐大。這時就需要將這些龐大數據切割分配到N台電腦進行處理。當大量信息被分配到不同電腦進行處理時,要確保最終得到的結果正確就需要對這些分佈處理的信息進行管理,hadoop就是這樣的一套解決方案。
通過一個簡單通俗的例子說明:假如說你有一個籃子水果,你想知道蘋果和梨的數量是多少,那麼只要一個一個數就可以知道有多少了。如果你有一個集裝箱水果,這時候就需要很多人同時幫你數了,這相當於多進程或多線程。如果你很多個集裝箱的水果,這時就需要分散式計算了,也就是Hadoop。
二、hadoop的版本
隨著這幾年大數據浪潮的興起,hadoop的各種版本也快速在國內流傳和使用。當前主要的hadoop版本有以下幾種:
1、Apache hadoop 的2.0版本,它的模塊主要有以下幾個:
(1)hadoop通用模塊,支持其他hadoop模塊的通用工具集;
(2)Hadoop分散式文件系統,支持對應數據高吞吐量訪問的分散式文件系統;
(3)用於作業調度和集群資源管理的Hadoop YANRN框架;
(4)Hadoop MapReduce,基於YARN的大數據並行處理系統。
2、Cloudera hadoop:Cloudera版本層次更加清晰,且它提供了適用於各種操作系統的Hadoop安裝包,可直接使用apt-get或者yum命令進行安裝,更加省事。
3、Hortonworks:Hortonworks 的主打產品是Hortonworks Data Platform (HDP),也同樣是100%開源的產品,HDP除了常見的項目外還包含了Ambari,一款開源的安裝和管理系統。HCatalog,一個元數據管理系統,HCatalog現已集成到Facebook 開源的Hive中。Hortonworks的Stinger開創性地極大地優化了Hive項目。Hortonworks為入門提供了一個非常好的,易於使用的沙盒。Hortonworks開發了很多增強特性並提交至核心主幹,這使得Apache Hadoop能夠在包括Windows Server和Windows Azure在內的Microsoft Windows平臺上本地運行。
三、國產hadoop發行版有哪些
國內做hadoop發行版的像華為、大快搜索都有推出自己的發行版。華為在硬體上有天然的有事,華為的FusionInsight Hadoop版本基於Apache Hadoop,構建NameNode、JobTracker、HiveServer的HA功能,進程故障後系統自動Failover,無需人工干預,這個也是對Hadoop的小修補,遠不如MapR解決的徹底。
大快搜索推出的DKhaoop, 是目前已知的國產發行版中唯一一個純原生態的開發,集成了整個HADOOP生態系統的全部組件,並深度優化,重新編譯為一個完整的更高性能的大數據通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大數據平臺,在計算性能上有了高達5倍(最大)的性能提升。