大數據思考

来源:https://www.cnblogs.com/hengly/archive/2019/07/07/11147425.html
-Advertisement-
Play Games

1.前言 記得從上大學的時候就已經聽說過這個詞語 以前的理解可能就是數據量超大很多嘛 到這幾年大數據這個詞語被人們談論得也越來越頻繁 也越來越想瞭解它的所以自己才會去學習 我覺得做任何事之前肯定有某種驅使你去瞭解它的過程 以下僅是自己個人的理解 2.什麼是大數據? 大數據不僅是數據量大 (G,TB, ...


1.前言

       記得從上大學的時候就已經聽說過這個詞語 以前的理解可能就是數據量超大很多嘛 到這幾年大數據這個詞語被人們談論得也越來越頻繁 也越來越想瞭解它的所以自己才會去學習 我覺得做任何事之前肯定有某種驅使你去瞭解它的過程 以下僅是自己個人的理解

2.什麼是大數據?

       大數據不僅是數據量大 (G,TB,PB.....)達到甚至更大 ,試想一下我給你一個數據量達到TB級別的數據 但是裡面的數據都是一些你看不懂或者沒有什麼可用的信息的 那它也不過是一個數據量很大的文件而已(僅此而已沒有什麼可以提供的價值信息) ,所以說大數據不僅是擁有海量的數據而且是多維度的(能夠獲取到很多有價值的信息)我們經常會把數據存放到硬碟 硬碟大嘛可以存放幾百G的容量 但是我們的大數據就不行了 因為大數據的數據量是龐大的是你都無法想象的(有時候會在腦海裡想想 全世界有接近70多億的人口說全世界可能範圍太大 就單單一個中國13億人每天產生的數據量就大的驚人)這麼大的數據量怎麼可能去存放到硬碟里呢(在多弄幾臺電腦不就行了 幾台不行在搞個幾十臺當初就是這麼想的) 這時候我們的大數據就派上用場了 

      大數據的核心是解決海量數據 場景下的數據存儲加運算問題(拿到數據後肯定會進行一些計算然後提取到我們所需要的信息) 而海量數據 場景下的數據存儲加運算問題的核心又是分散式技術

       我們經常會上網購物 淘寶天貓京東呀 每次只要搜索的時候一件物品(比如電腦)那麼下次再進來的時候你就會發現很多有關電腦的購物信息 當我選擇一件物品進入到購物車 就會立即跟我推薦很多跟我購物車相關的物品  以前可能回想這是怎麼回事 為什麼不推薦其他的物品呢 現在可能有了一些些瞭解

      首先當我們訪問一個頁面的時候 例如京東的網站    每當我們在瀏覽一個頁面點擊每一件商品的時候 會像服務端server發送很多信息 (商品標題 ip地址 用戶id.......)都會發到server 服務端收到信息之後 就會把這些信息獲取到然後保存到硬碟中 相當一個日誌吧 每天都會存放一些信息 並且會不斷的更新數據會越來越大必須做一些處理 那麼問題也就來了

 Q1:試想以下像京東天貓每天同時瀏覽人數沒有上億也有好幾千萬的訪問量 ,假如一個人訪問數據量為幾k 一天總共請求的數據也有百g了 如果一個月 一年 那麼數據就會越來越大那麼它的數據又是如何保存的呢?

      如果用硬碟存放肯定不現實 而京東(不止是京東 天貓 谷歌 阿裡)也是運用了分散式文件存儲系統(HDFS) 將數據存放到多台伺服器上面 然後進行數據操作

  

3.接下來談談對HDFS的理解 不禁會有這麼幾個問題

1.HDFS是做什麼的?

 HDFS分散式計算中數據存儲管理的基礎 是用來存儲超大數據文件的系統

2.HDFS有什麼優點為什麼這麼多公司會用?

 (1)高容錯性 

    數據自動保存多個副本 當一個副本丟失會自動恢復

   (2)適合大數據處理

      1) 數據規模:能夠處理數據規模達到 GB、TB、甚至PB級別的數據。

      2) 文件規模:能夠處理百萬規模以上的文件數量,數量相當之大。

   (3) 流式數據訪問

     1) 一次寫入,多次讀取,不能修改,只能追加。

     2) 它能保證數據的一致性。

   (4) 可構建在廉價機器上

     1) 它通過多副本機制,提高可靠性。

     2) 它提供了容錯和恢復機制。比如某一個副本丟失,可以通過其它副本來恢復。

   (5) 適合批處理

     1) 它是通過移動計算而不是移動數據。

     2) 它會把數據位置暴露給計算框架。

 3.HDFS如何存儲數據?

     (1) 我們要想知道HDFS如何存儲數據 就必須先瞭解到HDFS Client、NameNode、DataNode和Secondary NameNode
         1) HDFS Cilent   hdfs客戶端

         文件上傳到HDFS的時候 會將文件進行分塊 然後再進行存儲

         與NameNode交互 獲取到文件的位置信息 NameNode管理DataNode 應該將文件存儲到哪個節點

         與DataNode交互 存儲獲讀取數據

         Client 提供一些命令來管理 HDFS,比如啟動或者關閉HDFS。

          2)NameNode 

           處理客戶端的請求 

           管理數據塊的信息

           管理DataNode

         3)DataNode

            是真正幹事的節點 它負責存儲數據

        4)Secondary NameNode

          輔助 NameNode,分擔其工作量(有點像秘書的角色) 但是當NameNode掛掉的時候 它並不能馬上替換 NameNode 並提供服務

          定期合併 fsimage和fsedits,並推送給NameNode。

 4. 接下來來談談HDFS的存儲過程 

1 當客戶端發送一個請求說有一個文件需要存儲(gfvadio.avi) 

2.NameNode會接收到這個請求 並且會在虛擬目錄樹下麵找是否有這個文件 如果有就響應可以傳輸  

3.然後客戶端就會去傳輸數據(並且會分塊傳輸 預設是128M是一塊 而我要傳輸的文件是200M 它會分為兩塊去傳) 並且會保存三份副本 以免數據丟失

4.NameNode通知客戶端可以將數據傳到 DN1 DN2 DN4 並且會給它分配一個全局唯一的blk_id 

5.客戶端收到消息後就會將文件傳到DN1 DN2 DN4 第一塊傳輸完成

6.客戶端請求傳輸文件的第二塊 並且也保存三份 接著NameNode通知可以將文件傳到DN2 DN3 DN4 並且會分配給它一個佈局唯一的blk_id2

7.客戶端收到消息後傳輸文件到DN2 DN3 DN4 存儲完成

至於為什麼HDFS會這麼存儲數據 肯定是有它的道理的 接下來這幾個問題問題也許可以解決這個疑問

     Q2:如果多個客戶端傳輸同一個文件名 可能造成什麼後果?

           之前的數據肯定會被覆蓋 數據丟失 正是因為這個原因所以在傳輸文件的時候NameNode會分配一個全局唯一的編號

     Q3:如果客戶端傳輸一個超大文件100G會發生什麼?

         100G的數據讀起來肯定非常慢 所以會分塊 每個機器讀取不同的塊 可以大大增加讀取效率

     Q4:傳輸數據的時候數據存儲伺服器掛掉(如果DN1,DN2 )了會發生什麼?

          這裡就可以解決為什麼會備份副本 傳輸文件的時候會備份多份 這樣可以防止某台伺服器突然掛掉 數據出現丟失的情況

  

5.HDFS讀取數據的過程

  1.客戶端發送請求讀取數據

  2.NameNode會在元數據中查找是否存在這個文件 如果存在 然後就會通知客戶端blk_id在DN1 blk_id2在DN2

  3.客戶端然後再去DN1中取第一塊數據 取完之後再在DN2中取第二塊

先前總是想著寫的 總是沒有足夠的時間 今天花了一個上午終於寫完了 以上僅是自己的理解 如果有什麼不對的歡迎指正 小弟不勝感激

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • -- 報錯信息[root@localhost docker]# docker run -d -p 5000:5000 training/webapp python app.pycc61442060cb810633a06bd6ea692a3df6b0bfcadc6a7dadfe53bf875f1ac3 ...
  • Linux環境工作常用命令 cd / 進入根目錄 mkdir dirName 創建文件夾 touch fileName 創建一個空文件 vi/vim fileName 編輯一個文件,如果文件不存在,則會新建該文件 mv fileName/dirName 剪切/修改 文件或者文件夾的名稱 cp r s ...
  • 我的錯誤案例: ,這個後臺插不進去,就姓名那欄的中文編碼問題。 遇到這個錯誤,應該是創建表的時候沒有設置好編碼,這個錯誤不用多想,我也試過在更改表那裡設置編碼,但還是不行,還是有殘留 直接drop table ’table_name‘,把整個表刪除了再重新建,例子如下: CREATE TABLE t ...
  • 1.主題管理 kafka-topics.sh工具腳本用於對主題操作,如創建、刪除、修改、分區數、副本數及主題級別的配置。 1.1創建名為kafka-test主題,有2個副本,3個分區 [hadoop@h201 kafka_2.12-0.10.2.1]$ bin/kafka-topics.sh --c ...
  • Oracle基礎學習筆記 最近找到一份實習工作,有點頭疼的是,有階段性考核,這...,實際想想看,大學期間只學過資料庫原理,並沒有針對某一資料庫管理系統而系統的學習,這正好是一個機會,於是乎用了三天時間學習了一下Oracle數據的相關內容,以下是我總結的一些知識點,有錯誤的地方請及時通知我改正。 一 ...
  • 特別提示 本說明中的mysql 是基於windwos平臺下的5.5 版本 安裝完成後 請到mysql中設置配置文件 鏈接分享:鏈接:https://pan.baidu.com/s/1tv4ulZW1iUVl0ukn5WtV6w 提取碼:rso9 (永久有效) 本篇教程的主要目的為 好記性不如爛筆頭 ...
  • mysql 表的完整性約束 [TOC] 約束概念 unsigned 設置某一個數字無符號 (整數類型 ,浮點類型不能是unsigned的) not null 某一個欄位不能為空(嚴格模式會影響非空設置的效果) default 給某個欄位設置預設值(設置預設值) unique 設置某一個欄位不能重覆 ...
  • mysql支持的數據類型 [TOC] 數據類型官方文檔 數值類型 數值類型表 | 類型 | 大小 | 範圍(有符號) | 範圍(無符號)unsigned約束 | 用途 | | | | | | | | TINYINT | 1位元組 | ( 128,127) | (0,255) | 小整數值 | | SM ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...