大數據及Hadoop的概述

来源:https://www.cnblogs.com/HelloBigTable/archive/2019/03/22/10578354.html
-Advertisement-
Play Games

一、大數據存儲和計算的各種框架即工具 1.存儲:HDFS:分散式文件系統 Hbase:分散式資料庫系統 Kafka:分散式消息緩存系統 2.計算:Mapreduce:離線計算框架 storm:實時流式計算 spark:離線批處理/實時流處理計算框架(MR的二次封裝) 3.輔助類工具:hive:數據倉 ...


一、大數據存儲和計算的各種框架即工具

  1.存儲:HDFS:分散式文件系統

        Hbase:分散式資料庫系統

        Kafka:分散式消息緩存系統

  2.計算:Mapreduce:離線計算框架

        storm:實時流式計算

        spark:離線批處理/實時流處理計算框架(MR的二次封裝)

  3.輔助類工具:hive:數據倉庫工具

           flume:數據採集工具

           sqoop:數據遷移工具

 

二、大數據應用場景:

  典型應用:公司運營情況 =>典型網站:CNZZ、數據專家、友盟

  電商廣告推薦系統:淘寶、京東、蘇寧

    大量基於演算法模型的運算,得出各種推薦結論

  天氣預報等。。。

 

三、Hadoop的概述

  Hadoop軟體庫是一個框架,允許使用簡單的編程模型跨電腦集群分散式處理大型數據集。它旨在從單個伺服器擴展到數千台電腦,每台電腦都提供本地計算和存儲。該庫本身不是依靠硬體來提供高可用性,而是設計用於檢測和處理應用層的故障,從而在電腦集群之上提供高可用性服務,每個電腦都可能容易出現故障。

  Hadoop中單個核心組件:

    分散式文件系統:HDFS =>實現存儲在多台伺服器之上

    分散式運行編程框架:Mapreduce=>實現在很多太機器的分散式並行計算框架

    分散式資源調度平臺:Yarn=>幫助我們調度大量MR任務,併合理分配運算資源


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、HDFS集群API所需要jar包的maven配置信息 二、從HDFS下載數據文件/上傳文件到HDFS文件系統 思路:1.獲取配置信息 2.設置配置信息(塊大小、副本數) 3.構造客戶端 4.下載數據文件/上傳數據文件 5.關閉資源 (1)下載文件 (2)上傳文件 三、對HDFS系統進行操作的AP ...
  • 一.資料庫mysql的特點 1.首先資料庫分為RDBMS(關係型資料庫),和NOSQL(非關係型資料庫),而我們的mysql則是RDBMS。 2.RDMS和NOSQL特點對比 RDBMS特點: (1)二維表的形式展示 (2)使用率非常大,例如傳統企業上使用的orcale,以及最新互聯網企業的mysq ...
  • 概述 lab2中實現了raft協議,本lab將在raft之上實現一個可容錯的k/v存儲服務,第一部分是實現一個不帶日誌壓縮的版本,第二部分是實現日誌壓縮。時間原因我只完成了第一部分。 設計思路 ![kvserver](https://blog 1253119293.cos.ap beijing.my ...
  • 推薦在Linux系統上安裝,這裡我採用CentOS6: Redis採用3.0.0版本,官網下載即可 由於Redis是C語言編寫,需要安裝gcc(部分Linux自帶gcc) 解壓安裝包: 編譯redis源碼: 安裝: 啟動redis: 第一種:不推薦 第二種:使用配置文件 修改daemonize為ye ...
  • [20190322]測試相同語句遇到導致cursor pin S的疑問.txt--//昨天測試遇到的情況,鏈接:http://blog.itpub.net/267265/viewspace-2638857/--//我一直認為打散sql語句,避開cursor: pin S等待事件,能夠提高執行效率.而 ...
  • 一.select高級用法 1.傳統連接(只能內連接,取交集,效率最慢) 1.根據兩張表查詢張三成績 2.世界上小於100人的人口城市是哪個國家的 2.NATURAL JOIN(自連接的表要有共同的列名字) 1.查詢,人口在100以上的城市名字,和所說的語言 3.企業中多表連接查詢(內連接) 1.都到 ...
  • 在1年前,我用學生價租了一個阿裡雲伺服器(是真的便宜啊),自己在CentOS系統上用命令行搭了個WordPress的環境,開始了為期一個月使用自建博客的歷程。 事實證明,博客在類似博客園這樣的平臺上寫還是非常方便的! + 不用自己優化後臺,雖然WordPress已經足夠傻瓜了,但是我還是太菜了 + ...
  • Insert,delete,update對btre索引的影響 對需要跟蹤的索引進行監控 Alter index 索引名 monitoring usage; 對需要跟蹤的索引取消監控 Alter index 索引名 nomonitoring usage; 通過觀察v$object_usage進行跟蹤 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...