全方位認識HBase：一個值得擁有的NoSQL資料庫（一）

-Advertisement-

前言：說起HBase這門技術，在認知上對於稍微接觸或使用過它的人來講，可能只是百千資料庫中一個很普通的庫，大概就像我對Redis的認知一樣：緩存嘛！可對於HBase，我確實是帶著某些感情在的。今日突然萌生了一個生趣的想法，想拋開技術的視角，從情感的角度，像寫小說一樣，寫寫這位老朋友，這可能會有點滑 ...

前言：說起HBase這門技術，在認知上對於稍微接觸或使用過它的人來講，可能只是百千資料庫中一個很普通的庫，大概就像我對Redis的認知一樣：緩存嘛！可對於HBase，我確實是帶著某些感情在的。今日突然萌生了一個生趣的想法，想拋開技術的視角，從情感的角度，像寫小說一樣，寫寫這位老朋友，這可能會有點滑稽吧，不過我覺得很放鬆。《全方位認識HBase：一個值得擁有的NoSQL資料庫》：從今天起，我們就暫且認為這是一本小說的名字吧！哈哈~

其實我特別想做的一件事情，就是想讓更多的人來認識並使用HBase這門地地道道的大數據棧技術，當然不為別的，主要原因還是HBase真的很棒很熱，自己用著感覺真的好，不好的產品我怎麼會推薦給你呢？畢竟HBase這家伙不會給我一分錢的廣告費~

那首先，我想給大家分享的內容就是：在我剛接觸HBase這位老朋友的時候根本不想去看的一些覺得沒用的東西。什麼呢？其實就是特別無聊又深奧的好像還不得不問的靈魂三問：我是誰？我從哪裡來？我要到哪裡去？

為什麼想寫寫這個呢？真的好無聊啊~ 當然肯定不是我太無聊了，說實話，是因為對它真的有感情了，所以就想把它的前世今生全都介紹給你，可能算是一種情懷，也可能算是一種敬畏，也可能只是怕趕路的人忘了它是誰。

我從哪裡來？

我們知道，HBase出現於大數據背景之下，那麼談到這個問題，我們不得不提一下當年奠定了大數據演算法基礎的風靡全球的Google三篇論文，也稱為Google的三駕馬車：Google FS[2003]、MapReduce[2004]、BigTable[2006]。三篇論文中文版鏈接這裡提供給大家，閑來沒事可以看一看。

鏈接：https://pan.baidu.com/s/1EIhGR6gADm2BnEh5hW4KUA 
提取碼：c1wb

這三篇論文為何風靡全球呢？我們說隨著大數據時代的到來，我們同樣面臨著大數據所帶給我們的核心二問：

1、海量數據如何存儲？
2、海量數據如何計算？
3、海量結構化數據如何高效讀寫？

然而，而谷歌公司在2003年至2006年發佈的三篇論文則為解決兩個問題提供了思路。

“ 我們設計並實現了 Google GFS 文件系統，一個面向大規模數據密集型應用的、可伸縮的分散式文件系統。
GFS 雖然運行在廉價的普遍硬體設備上，但是它依然了提供災難冗餘的能力，為大量客戶機提供了高性能的
服務。
...
GFS 完全滿足了我們對存儲的需求。”

Google GFS 文件系統超前的設計思想，為解決大數據時代海量數據的存儲提出瞭解決思路，同時對今後的分散式系統設計都提供了寶貴的指導意義。而MapReduce框架則解決了大數據時代海量數據如何計算的問題，雖然現在的Spark很火，但吃水不能忘了挖井人。

2006年，Google發佈了第三篇重要論文。Bigtable 是一個分散式的結構化數據存儲系統，它被設計用來處理海量數據：通常是分佈在數千台普通伺服器上的 PB 級的數據。Bigtable 的設計目的是可靠的處理 PB 級別的數據，並且能夠部署到上千台機器上。用於解決Google內部海量結構化數據的存儲以及高效讀寫問題。

也正是因為這三篇論文的發表，才有了而後的HDFS、MapReduce 和 HBase，才有了2015大數據元年。下麵我們詳細看一下Hadoop 家族的編年史，這裡你大概也可以看出HBase在Hadoop家族中的地位。

*   2002年10月，Doug Cutting和Mike Cafarella創建了開源網頁爬蟲項目Nutch。

*   2003年10月，Google發表Google File System論文。

*   2004年7月，Doug Cutting和Mike Cafarella在Nutch中實現了類似GFS的功能，即後來HDFS的前身。

*   2004年10月，Google發表了MapReduce論文。

*   2005年2月，Mike Cafarella在Nutch中實現了MapReduce的最初版本。

*   2006年1月，Doug Cutting加入雅虎，Yahoo!提供一個專門的團隊和資源將Hadoop發展成一個可在網路上運行的系統。

*   2006年2月，Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展。

*   2006年3月，Yahoo!建設了第一個Hadoop集群用於開發。

*   2006年4月，第一個Apache Hadoop發佈。

*   2006年11月，Google發表了Bigtable論文，這最終激發了HBase庫的創建。

*   2007年10月，第一個可用的HBase發佈了。

*   2008年1月，Hadoop成為Apache頂級項目。

*   2008年1月，HBase成為 Hadoop 的子項目。

*   2008年6月，Hadoop的第一個SQL框架——Hive成為了Hadoop的子項目。

*   2009年7月 ，MapReduce 和 HDFS成為Hadoop項目的獨立子項目。

*   2009年7月 ，Avro 和 Chukwa 成為Hadoop新的子項目。

*   2009年10月，首屆Hadoop World大會在紐約召開。

*   2010年5月 ，HBase脫離Hadoop項目，成為Apache頂級項目。

*   2010年9月，Hive 脫離Hadoop，成為Apache頂級項目。

*   2010年9月，Pig脫離Hadoop，成為Apache頂級項目。

*   2011年1月，ZooKeeper 脫離Hadoop，成為Apache頂級項目。

*   2012年8月，YARN成為Hadoop子項目。

*   2012年10月，第一個Hadoop原生MPP查詢引擎Impala加入到了Hadoop生態圈。

*  2014年2月，Spark逐漸代替MapReduce成為Hadoop的預設執行引擎，併成為Apache基金會頂級項目。

*   2015年10月，Cloudera公佈繼HBase以後的第一個Hadoop原生存儲替代方案——Kudu。

*   2015年12月，Cloudera發起的Impala和Kudu項目加入Apache孵化器。

好了，一張圖向大家道一聲晚安吧，挺晚了，該睡了~ 下一章我們再追問“我是誰？”的靈魂思考吧~

我從哪裡來？

參考文章

https://blog.csdn.net/lfq1532632051/article/details/53219558

掃描二維碼關註博主公眾號

轉載請註明出處！歡迎關註本人微信公眾號【HBase工作筆記】

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Hadoop偽分佈安裝搭建

Hadoop偽分佈安裝搭建搭建Hadoop的環境一、準備工作 1、安裝Linux、JDK、關閉防火牆、配置主機名解壓：tar -zxvf hadoop-2.7.3.tar.gz -C ~/traning/ 設置Hadoop的環境變數: vi ~/.bash_profile HADOOP_HOM ...
mysql 使用技巧 where條件連接；inner join內連接；外連接(left outer join,right outer join)

mysql的inner join等價於where條件連接查詢內連接 inner join 省略形式 join 外連接左連接 left outer join 省略形式 left join 右連接 right outer join 省略形式 right join 兩張表內容： mysql> use ...
MySQL 的主從複製（高級篇）

首先要明白為什麼要用 mysql 的主從複製： 1–在從伺服器可以執行查詢工作 (即我們常說的讀功能)，降低主伺服器壓力；（主庫寫，從庫讀，降壓） 2–在從主伺服器進行備份，避免備份期間影響主伺服器服務；（確保數據安全） 3–當主伺服器出現問題時，可以切換到從伺服器。（提升性能）來說一下主從複製的 ...
6. 鎖

開發多用戶、資料庫驅動的應用時，最大的難點是：一方面要最大程度的利用資料庫的併發訪問，一方面還要確保每個用戶能以一致的方式讀取和修改數據，為此有了鎖的機制。 6.1 什麼是鎖鎖機制用於管理對共用資源的併發訪問。InnoDB除了會在行級別上對錶數據上鎖，也會在資料庫內部其他多個地方上鎖，從而允許對多 ...
mysql 使用技巧分頁limit

mysql 分頁使用 limit關鍵字，limit x,y （x代表從哪條數據開始，y代表頁面大小。mysql第一條數據在limit計算時索引為0） limit 10 前10條 limit 0,10 從第1條開始的10條 limit 10,10 從第 11 條開始的 10 條 limit 100,1 ...
Redis之quicklist源碼分析

一、quicklist簡介 Redis列表是簡單的字元串列表，按照插入順序排序。你可以添加一個元素到列表的頭部（左邊）或者尾部（右邊）。一個列表最多可以包含 232 - 1 個元素 (4294967295, 每個列表超過40億個元素)。其底層實現所依賴的內部數據結構就是quicklist，主要特 ...
關於MySQL死鎖檢測機制參數innodb_deadlock_detect設置的一點思考

微信公眾號中（這裡）看到一個關於MySQL的innodb_deadlock_detect與併發相關的細節，覺得比較有意思，也即innodb_deadlock_detect這個參數的設置問題死鎖檢測是一個MySQL Server層的自動檢測機制，可以及時發現兩個或者多個session間互斥資源的申請 ...
【趙強老師】Oracle存儲過程中的out參數

一、什麼是存儲過程 Oracle存儲過程可以說是一個記錄集吧，它是由一些PL/SQL語句組成的代碼塊，這些PL/SQL語句代碼像一個方法一樣實現一些功能（對單表或多表的增刪改查），然後再給這個代碼塊取一個名字，在用到這個功能的時候調用他就行了。存儲過程的好處：由於資料庫執行動作時，是先編譯後執行 ...