Hadoop生態圈以及各組成部分的簡介

-Advertisement-

1.Hadoop是什麼? 適合大數據的分散式存儲與計算平臺 HDFS: Hadoop Distributed File System分散式文件系統 MapReduce：並行計算框架 2.Hadoop生態圈 ①HBase Google Bigtable的開源實現列式資料庫可集群化可以使用shel ...

1.Hadoop是什麼?

適合大數據的分散式存儲與計算平臺

HDFS: Hadoop Distributed File System分散式文件系統

MapReduce：並行計算框架

2.Hadoop生態圈

①HBase

Google Bigtable的開源實現

列式資料庫

可集群化

可以使用shell、web、api等多種方式訪問

適合高讀寫（insert）的場景

HQL查詢語言

NoSQL的典型代表產品

②Hive

數據倉庫工具。可以把Hadoop下的原始結構化數據變成Hive中的表

支持一種與SQL幾乎完全相同的語言HiveQL。除了不支持更新、索引和事務，幾乎SQL的其它特征都能支持

可以看成是從SQL到Map-Reduce的映射器

提供shell、JDBC/ODBC、Thrift、Web等介面

③Zookeeper

Google Chubby的開源實現

用於協調分散式系統上的各種服務。例如確認消息是否準確到達，防止單點失效，處理負載均衡等

應用場景：Hbase，實現Namenode自動切換

工作原理：領導者，跟隨者以及選舉過程

④Sqoop

用於在Hadoop和關係型資料庫之間交換數據

通過JDBC介面連入關係型資料庫

⑤Chukwa

架構在Hadoop之上的數據採集與分析框架

主要進行日誌採集和分析

通過安裝在收集節點的“代理”採集最原始的日誌數據

代理將數據發給收集器

收集器定時將數據寫入Hadoop集群

指定定時啟動的Map-Reduce作業隊數據進行加工處理和分析

⑥Pig

Hadoop客戶端

使用類似於SQL的面向數據流的語言Pig Latin

Pig Latin可以完成排序，過濾，求和，聚組，關聯等操作，可以支持自定義函數

Pig自動把Pig Latin映射為Map-Reduce作業上傳到集群運行，減少用戶編寫Java程式的苦惱

⑦Avro

數據序列化工具，由Hadoop的創始人Doug Cutting主持開發

用於支持大批量數據交換的應用。支持二進位序列化方式，可以便捷，快速地處理大量數據

動態語言友好，Avro提供的機制使動態語言可以方便地處理 Avro數據。

Thrift介面

⑧Cassandra

NoSQL，分散式的Key-Value型資料庫，由Facebook貢獻

與Hbase類似，也是借鑒Google Bigtable的思想體系

只有順序寫，沒有隨機寫的設計，滿足高負荷情形的性能需求

3.Hadoop生態圈流程圖

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

iframe高度自適應（同域）

今天解決了iframe高度自適應的問題，不過這隻是同域下的頁面嵌入，以下是代碼： function SetCwinHeight(){ var iframeid = document.getElementById("frame"); //frame是iframe的id if (document.get ...
iOS多線程之9.自定義NSOperation

本文主要講如何自定義NSOperation，以及自定義NSOperation的一些註意事項，以下載圖片為例。新建一個類，繼承於NSOperation。 CustomOperation.h 代碼 CustomOperation.m 分析：1.自定義NSOperation都要 ...
Apk去掉簽名以及重新簽名的方法

介紹Apk去掉簽名的方法以及用JDK自帶jarsigner重新簽名的方法。 ...
應用間跳轉

1、配置URLSchemes 被跳轉至的應用要配置URLSchemes，其他應用根據此應用的URLSchemes跳轉至此應用。一個APP可以配置多個URLSchemes，這樣其他APP無論寫哪個URLSchemes，都能跳轉至此應用。方式1：配置Info信息，其實本質修改的還是Info.plis ...
活動的生命周期系列（一）活動棧的生命周期

生命周期對程式員很重要，特別當我們瞭解，就可以寫出更流暢的程式，更好的來避規性能瓶頸，讓我們的APP擁有更好的用戶體驗。我們繼續來分享“活動狀態及生存周期”，活動狀態：運行狀態，暫停狀態，停止狀態，銷毀狀態。活動的生成周期分別為:onCreate()、onSart()、onResme()、onPau... ...
安卓四大組件之內容提供者

內容提供者ContentProvider，是Android 的四大組件之一。 ...
listview的ViewHolder優化

1.自定義listview，首先在activity.xml中插入一個listview，可以用android：divider=“”設置分割線顏色樣式，android：dividerHeight=""設置分割線高度。 2.新建viewholder_item.xml設計每行Item顯示的樣式佈局。 3.自 ...
我的Android第五章：通過Intent實現活動與活動之間的交互

Intent在活動的操作作用： Itent是Android程式中各個組件直接交換的一個重要方式可以指定當前組件要執行任務同時也可以給各個組件直接進行數據交互同時Intent啟動往往可以啟動活動，啟動服務，以及發送廣播等場景分類 1.顯示Intent和隱示Intent 顯示Intent操作 1. ...