大數據存儲的進化史 --從 RAID 到 Hdfs

来源:https://www.cnblogs.com/listenfwind/archive/2018/12/18/10133772.html
-Advertisement-
Play Games

我們都知道現在大數據存儲用的基本都是 Hdfs ,但在 Hadoop 誕生之前,我們都是如何存儲大量數據的呢?這次我們不聊技術架構什麼的,而是從技術演化的角度來看看 Hadoop Hdfs。 ...


我們都知道現在大數據存儲用的基本都是 Hadoop Hdfs ,但在 Hadoop 誕生之前,我們都是如何存儲大量數據的呢?這次我們不聊技術架構什麼的,而是從技術演化的角度來看看 Hadoop Hdfs。

我們先來思考兩個問題。

  • 在 Hdfs 出現以前,電腦是通過什麼手段來存儲“大數據” 的呢?
  • 為什麼會有 Hadoop Hdfs 出現呢?

在 Hadoop Hdfs 出現以前,電腦是通過什麼手段來存儲“大數據”

要知道,存儲大量數據有三個最重要的指標,那就是速度,容量,容錯性。速度和容量的重要性毋庸置疑,如果容量不夠大,或者讀取的速度不夠快,那麼海量數據存儲也就無從談起了。而磁碟又是電腦中很容易損壞的零件,當磁碟損壞的時候怎麼辦?放任數據的丟失嗎,那可不行,這就有了容錯性的需求。

在沒有分散式存儲的時代,單個磁碟容量不夠怎麼辦?加磁碟唄。磁碟容易壞怎麼辦,同時用其他磁碟備份唄。就這樣,獨立磁碟冗餘陣列( Redundant Array of Independent Disks ),簡稱 RAID,誕生了。

在 2000 年以前,磁碟還是很珍貴的資源,不像現在,磁碟是 PC 機中最廉價的部件。一開始 RAID 技術是為了將多個廉價的容量較小的磁碟組合起來充當一個大磁碟以節約成本,但後來人們發現這項技術也可以用在單台機器磁碟擴容上了,於是 RAID 技術開始被廣泛使用。

RAID 技術將多個磁碟組合成一個邏輯扇區,對電腦而言,它會將 RAID 當作一個磁碟來處理。使用 RAID 的好處有:增強數據集成度,增強容錯功能,增加處理量或容量。

另外 RAID 也有分為多個檔次,標準的分法,分別是 RAID0 , RAID1 , RAID2 ,RAID3 ,RAID4 ,RAID5 , RAID6 ,每個檔次都有對應的優缺點。這裡就不詳細介紹,這些 RAID 等級的不同主要是對 上述說到的三個數據存儲要素(速度,容量,容錯性)的不同取捨,各有各的應用場景。我們從上述的三個指標來看 RAID 技術。

  • 速度: RAID通過在多個磁碟上同時存儲和讀取數據來大幅提高存儲系統的數據吞吐量。在RAID中,可以讓很多磁碟驅動器同時傳輸數據,而這些磁碟驅動器在邏輯上又是一個磁碟驅動器,所以使用RAID可以達到單個磁碟驅動器幾倍、幾十倍甚至上百倍的速率。
  • 容量: 可以將多個磁碟連接起來,對比以前的單個磁碟存儲,RAID 將存儲的量級拔高了一個臺階。但依舊有其局限性,因為 RAID 始終是放在單台機器上,機器的磁碟卡槽不可能無限增加,磁碟也不可能一直增大。
  • 容錯性: 不同等級的 RAID 使用不同的數據冗餘策略,保證數據的容錯性。比如最簡單的 RAID1 就是數據在寫入磁碟時,將一份數據同時寫入兩塊磁碟,這樣任何一塊磁碟損壞都不會導致數據丟失,而插入一塊新磁碟就可以通過複製數據的方式自動修複,具有極高的可靠性。

為什麼會有 Hadoop Hdfs 出現

最直接是原因是 Google 三篇大數據論文的發表,這直接導致了 Hadoop 的問世。

但更深層的原因其實還是因為傳統的但節點磁碟容量達到了極限,即便是用上述的 RAID 技術,但單個台伺服器的容量始終有一個邊界值。而且隨著互聯網的普及,在 2000 年後,數據的積累呈指數式增長,這時候單台伺服器顯然已經放不下這海量的數據了。但是就像 RAID 的改革思想一樣,既然單台伺服器不夠,那我們就加伺服器唄。

最早是 Google ,他們在自己的系統上實現了 Google File System(GFS) 這麼一個分散式存儲系統,併在 03 年的時候將它的實現論文發表了出來。而後 Doug Cutting 和 Mike Cafarella 在這三篇論文的基礎上開發出了 Hadoop。

但要將多台伺服器聯合在一起進行分散式存儲,顯然不是那麼容易。Hadoop1.0 的時候,Hdfs 還是有一些隱患的。舉個例子,用分散式進行數據存儲,那就需要一個來記錄元數據的伺服器,也就是記錄數據存儲位置的伺服器。Hadoop1.0 時候的 Hdfs 是用一個 namenode 管理元數據的,但顯然,只有一個 namenode 來存儲元數據有極大的風險,那就是 namenode 的可靠性無法保證,一旦這個 namenode 掛掉,整個集群就完蛋了。

好在這些問題及時得到修複,Hadoop2.0 橫空出世,解決了大部分的問,比如上面說到的 NameNode 單點故障問題,解決方式就是多引入一臺 NameNode 做同步備份,一個 NameNode 出問題時另一個跳出來扛。升級過後,Hadoop Hdfs 這才算是坐穩了大數據存儲王者的寶座。

在這裡我們就先不說 Hadoop Hdfs 的架構如何,依舊是從上面說到的大數據存儲的三個指標速度,容量,容錯性這幾個方面來看 Hadoop Hdfs。

  • 速度: 速度方面的優勢源於 Hdfs 合理的設計理念。它預設用到 Hdfs 處理的是大的數據(TB,PB 級的數據),並且摒棄了傳統文件系統中的 Update 操作,只有 Append 操作。在這個基礎上,Hdfs 將一個文件分割成若幹個塊(Block),每個塊分佈在不同的機器中。。和 RAID 利用多個磁碟併發 IO 提高速度一樣,每次操作一個文件的時候,實際上是多個機器在併發讀取,這樣無疑是進一步提高讀取速度。
  • 容量: 容量這個問題自不必說,理論上是可以無限制得擴容。但實際上由於它的元數據存儲在一臺 namenode 中,所以它的大小還是會收到元數據存儲的這個限制。不過在 Hadoop2.0 後,在機器條件允許的情況下,一個 Hdfs 支撐起 PB 級別的存儲還是綽綽有餘的。
  • 容錯性: 在容錯性這個方面,從以前到現在基本都是通過數據冗餘來實現的。只不過數據冗餘的一些策略會根據不同的應用場景而做出一些改變。由於 Hadoop 本身就是假設部署在多台廉價機器上,所以它會傾向於將存儲數據的節點當作不可靠的節點。出於這個因素,Hdfs 的預設冗餘備份數是 3份 ,就是說當你向 Hdfs 寫入一份數據的時候,同時會在其他三台機器上也寫入相同的內容。

我們可以發現,其實 Hadoop Hdfs 和 RAID 在思想上是有一些相似之處的。都是通過水平拓展,比如 RAID 水平拓展磁碟,Hadoop Hdfs 則是水平拓展機器。

鐵打的營盤流水的兵。數據就是那些兵,大數據計算框架,比如 Spark,Hive 是將軍。而營盤就是 Hadoop Hdfs 了。兵進進出出,將軍換了一個又一個,唯獨營盤不會變,Hadoop Hdfs 無疑是大數據體系中最基礎也是最重要的那一環。

這裡給出一個有意思的問題: 當下一次互聯網革命到來,數據又呈指數增長的時候,數據存儲的模式會怎樣演化呢?會是簡單的增加集群嗎,比方說讓多個 hdfs 集群相互連通?歡迎在評論中寫下你的思考。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 內置數據結構種類 控制台顯示 空列表, [] [1, 2, 3] 空字典, {} {'first': 1, 'second': 2, 'third': 3} 空集合, set() {1, 2, 3} 空元組, () (1, 2, 3) ...
  • 一 . 反射的概念 二 . 反射的作用 三. 反射的優缺點 優點:動態創建和編譯對象(靈活) 動態編譯:指程式在運行時確定對象類型,綁定對象。動態編譯最大限度的發揮了Java的靈活性,體現了多態的應用,降低了類之間的耦合性。bug一般會出在運行時期。反之為靜態編譯。 靜態編譯:在編譯期間確定對象類型 ...
  • dbPanel面板的配置告一段落。 接下來配置taskPanel 面板。 / @author: lishuai @date: 2018/11/26 13:51 / public class WeimingSyncApplets { public static void main(String[] a ...
  • 接下來添加文本組件JTextField和密碼組件JPasswordField。 效果如圖: ...
  • 併發編程簡介 什麼是併發編程 串列 : 串列化,按照步驟進行,一步一步來,不能越級(比如洗茶具,打水,燒水,等水開,沖茶) 並行 : 多個任務一起執行(打水,燒水的時候洗茶具,等水開,沖茶) 並行的好處是可以縮短整個流程的時間 併發編程的目的 : 更加充分的利用資源 加快程式的響應速度(耗時任務,w ...
  • 1.java數據類型分類 Java語言是強類型(Strongly typed)語言,強類型包含兩方面的含義:①所有的變數必須先聲明,後使用;②指定類型的變數只能接受類型與之匹配的值。這意味著每個變數和每個表達式都有一個在編譯時就確定的類型。 Java語言支持的類型有兩類:基本類型(Primitive ...
  • Python學習筆記 最近主要學習的是Python的基礎知識,包括hello word 以及一些變數、用戶交互、if else判斷、while迴圈,這個和以前學的C語言有共同之處。 一、儀式感的“hello Word” 無論學c語言還是其他語言好像都是從這個開始的,我也不知道為什麼可能這就是所謂的儀 ...
  • Spring MVC那一篇里提到了異常攔截來做參數校驗返回,那裡是對特定的 controller 做異常捕捉,但是我們也可以選擇全局攔截處理 快速開始 @ResponseBody @ControllerAdvice public class ExceptionAdvice { private sta ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...