全方位認識HBase:一個值得擁有的NoSQL資料庫(一)

来源:https://www.cnblogs.com/zpb2016/archive/2020/04/18/12723939.html
-Advertisement-
Play Games

前言: 說起HBase這門技術,在認知上對於稍微接觸或使用過它的人來講,可能只是百千資料庫中一個很普通的庫,大概就像我對Redis的認知一樣:緩存嘛!可對於HBase,我確實是帶著某些感情在的。今日突然萌生了一個生趣的想法,想拋開技術的視角,從情感的角度,像寫小說一樣,寫寫這位老朋友,這可能會有點滑 ...


前言:說起HBase這門技術,在認知上對於稍微接觸或使用過它的人來講,可能只是百千資料庫中一個很普通的庫,大概就像我對Redis的認知一樣:緩存嘛!可對於HBase,我確實是帶著某些感情在的。今日突然萌生了一個生趣的想法,想拋開技術的視角,從情感的角度,像寫小說一樣,寫寫這位老朋友,這可能會有點滑稽吧,不過我覺得很放鬆。《全方位認識HBase:一個值得擁有的NoSQL資料庫》:從今天起,我們就暫且認為這是一本小說的名字吧!哈哈~

其實我特別想做的一件事情,就是想讓更多的人來認識並使用HBase這門地地道道的大數據棧技術,當然不為別的,主要原因還是HBase真的很棒很熱,自己用著感覺真的好,不好的產品我怎麼會推薦給你呢?畢竟HBase這家伙不會給我一分錢的廣告費~

那首先,我想給大家分享的內容就是:在我剛接觸HBase這位老朋友的時候根本不想去看的一些覺得沒用的東西。什麼呢?其實就是特別無聊又深奧的好像還不得不問的靈魂三問:我是誰?我從哪裡來?我要到哪裡去?

為什麼想寫寫這個呢?真的好無聊啊~ 當然肯定不是我太無聊了,說實話,是因為對它真的有感情了,所以就想把它的前世今生全都介紹給你,可能算是一種情懷,也可能算是一種敬畏,也可能只是怕趕路的人忘了它是誰。

我從哪裡來?

我們知道,HBase出現於大數據背景之下,那麼談到這個問題,我們不得不提一下當年奠定了大數據演算法基礎的風靡全球的Google三篇論文,也稱為Google的三駕馬車:Google FS[2003]、MapReduce[2004]、BigTable[2006]。三篇論文中文版鏈接這裡提供給大家,閑來沒事可以看一看。

鏈接:https://pan.baidu.com/s/1EIhGR6gADm2BnEh5hW4KUA 
提取碼:c1wb 

這三篇論文為何風靡全球呢?我們說隨著大數據時代的到來,我們同樣面臨著大數據所帶給我們的核心二問:

1、海量數據如何存儲?
2、海量數據如何計算?
3、海量結構化數據如何高效讀寫?

然而,而谷歌公司在2003年至2006年發佈的三篇論文則為解決兩個問題提供了思路。

“ 我們設計並實現了 Google GFS 文件系統,一個面向大規模數據密集型應用的、可伸縮的分散式文件系統。
GFS 雖然運行在廉價的普遍硬體設備上,但是它依然了提供災難冗餘的能力,為大量客戶機提供了高性能的
服務。
...
GFS 完全滿足了我們對存儲的需求。”

Google GFS 文件系統超前的設計思想,為解決大數據時代海量數據的存儲提出瞭解決思路,同時對今後的分散式系統設計都提供了寶貴的指導意義。而MapReduce框架則解決了大數據時代海量數據如何計算的問題,雖然現在的Spark很火,但吃水不能忘了挖井人。

2006年,Google發佈了第三篇重要論文。Bigtable 是一個分散式的結構化數據存儲系統,它被設計用來處理海量數據:通常是分佈在數千台普通伺服器上的 PB 級的數據。Bigtable 的設計目的是可靠的處理 PB 級別的數據,並且能夠部署到上千台機器上。用於解決Google內部海量結構化數據的存儲以及高效讀寫問題。

也正是因為這三篇論文的發表,才有了而後的HDFS、MapReduce 和 HBase,才有了2015大數據元年。下麵我們詳細看一下Hadoop 家族的編年史,這裡你大概也可以看出HBase在Hadoop家族中的地位。

*   2002年10月,Doug Cutting和Mike Cafarella創建了開源網頁爬蟲項目Nutch。

*   2003年10月,Google發表Google File System論文。

*   2004年7月,Doug Cutting和Mike Cafarella在Nutch中實現了類似GFS的功能,即後來HDFS的前身。

*   2004年10月,Google發表了MapReduce論文。

*   2005年2月,Mike Cafarella在Nutch中實現了MapReduce的最初版本。

*   2006年1月,Doug Cutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發展成一個可在網路上運行的系統。

*   2006年2月,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展。

*   2006年3月,Yahoo!建設了第一個Hadoop集群用於開發。

*   2006年4月,第一個Apache Hadoop發佈。

*   2006年11月,Google發表了Bigtable論文,這最終激發了HBase庫的創建。

*   2007年10月,第一個可用的HBase發佈了。

*   2008年1月,Hadoop成為Apache頂級項目。

*   2008年1月,HBase成為 Hadoop 的子項目。

*   2008年6月,Hadoop的第一個SQL框架——Hive成為了Hadoop的子項目。

*   2009年7月 ,MapReduce 和 HDFS成為Hadoop項目的獨立子項目。

*   2009年7月 ,Avro 和 Chukwa 成為Hadoop新的子項目。

*   2009年10月,首屆Hadoop World大會在紐約召開。

*   2010年5月 ,HBase脫離Hadoop項目,成為Apache頂級項目。

*   2010年9月,Hive 脫離Hadoop,成為Apache頂級項目。

*   2010年9月,Pig脫離Hadoop,成為Apache頂級項目。

*   2011年1月,ZooKeeper 脫離Hadoop,成為Apache頂級項目。

*   2012年8月,YARN成為Hadoop子項目。

*   2012年10月,第一個Hadoop原生MPP查詢引擎Impala加入到了Hadoop生態圈。

*  2014年2月,Spark逐漸代替MapReduce成為Hadoop的預設執行引擎,併成為Apache基金會頂級項目。

*   2015年10月,Cloudera公佈繼HBase以後的第一個Hadoop原生存儲替代方案——Kudu。

*   2015年12月,Cloudera發起的Impala和Kudu項目加入Apache孵化器。

好了,一張圖向大家道一聲晚安吧,挺晚了,該睡了~ 下一章我們再追問“我是誰?”的靈魂思考吧~

我從哪裡來?

參考文章

https://blog.csdn.net/lfq1532632051/article/details/53219558

掃描二維碼關註博主公眾號

轉載請註明出處!歡迎關註本人微信公眾號【HBase工作筆記】


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Hadoop偽分佈安裝搭建 搭建Hadoop的環境 一、準備工作 1、安裝Linux、JDK、關閉防火牆、配置主機名 解壓:tar -zxvf hadoop-2.7.3.tar.gz -C ~/traning/ 設置Hadoop的環境變數: vi ~/.bash_profile HADOOP_HOM ...
  • mysql的inner join等價於where條件連接查詢 內連接 inner join 省略形式 join 外連接 左連接 left outer join 省略形式 left join 右連接 right outer join 省略形式 right join 兩張表內容: mysql> use ...
  • 首先要明白為什麼要用 mysql 的主從複製: 1–在從伺服器可以執行查詢工作 (即我們常說的讀功能),降低主伺服器壓力;(主庫寫,從庫讀,降壓) 2–在從主伺服器進行備份,避免備份期間影響主伺服器服務;(確保數據安全) 3–當主伺服器出現問題時,可以切換到從伺服器。(提升性能) 來說一下主從複製的 ...
  • 開發多用戶、資料庫驅動的應用時,最大的難點是:一方面要最大程度的利用資料庫的併發訪問,一方面還要確保每個用戶能以一致的方式讀取和修改數據,為此有了鎖的機制。 6.1 什麼是鎖 鎖機制用於管理對共用資源的併發訪問。InnoDB除了會在行級別上對錶數據上鎖,也會在資料庫內部其他多個地方上鎖,從而允許對多 ...
  • mysql 分頁使用 limit關鍵字,limit x,y (x代表從哪條數據開始,y代表頁面大小。mysql第一條數據在limit計算時索引為0) limit 10 前10條 limit 0,10 從第1條開始的10條 limit 10,10 從第 11 條開始的 10 條 limit 100,1 ...
  • 一、quicklist簡介 Redis列表是簡單的字元串列表,按照插入順序排序。你可以添加一個元素到列表的頭部(左邊)或者尾部(右邊)。 一個列表最多可以包含 232 - 1 個元素 (4294967295, 每個列表超過40億個元素)。 其底層實現所依賴的內部數據結構就是quicklist,主要特 ...
  • 微信公眾號中(這裡)看到一個關於MySQL的innodb_deadlock_detect與併發相關的細節,覺得比較有意思,也即innodb_deadlock_detect這個參數的設置問題 死鎖檢測是一個MySQL Server層的自動檢測機制,可以及時發現兩個或者多個session間互斥資源的申請 ...
  • 一、什麼是存儲過程 Oracle存儲過程可以說是一個記錄集吧,它是由一些PL/SQL語句組成的代碼塊,這些PL/SQL語句代碼像一個方法一樣實現一些功能(對單表或多表的增刪改查),然後再給這個代碼塊取一個名字,在用到這個功能的時候調用他就行了。 存儲過程的好處: 由於資料庫執行動作時,是先編譯後執行 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...