大數據第一講

来源:https://www.cnblogs.com/Zac1010/archive/2019/07/12/11174592.html
-Advertisement-
Play Games

第一講:大數據基礎入門 第一節:為什麼要學習大數據 1、目的:很好工作 2、對比:Java開發和大數據開發 第二節:什麼是大數據? 舉例: 1、商品推薦: 問題:(1)大量的訂單如何存儲? (2)大量的訂單如何計算? 2、天氣預報: 問題:(1)大量的天氣數據如何存儲?(2)大量的天氣數據如何計算? ...



第一講:大數據基礎入門


第一節:為什麼要學習大數據
1、目的:很好工作
2、對比:Java開發和大數據開發

第二節:什麼是大數據?
舉例:
1、商品推薦: 問題:(1)大量的訂單如何存儲? (2)大量的訂單如何計算?
2、天氣預報: 問題:(1)大量的天氣數據如何存儲?(2)大量的天氣數據如何計算?

什麼是大數據,本質?
(1)數據的存儲:分散式文件系統(分散式存儲)
(2)數據的計算:分散式計算

第三節:Java和大數據是什麼關係?
1、Hadoop:基於Java語言開發
2、Spark: 基於Scala語言,Scala基於Java語言

第四節:學習大數據需要的基礎和路線
1、學習大數據需要的基礎:Java基礎(JavaSE)---> 類、繼承、I/O、反射、泛型*****
Linux基礎(Linux的操作) ---> 創建文件、目錄、vi編輯器***

2、學習路線:
(1)Java基礎和Linux基礎
(2)Hadoop的學習:體繫結構、原理、編程
(*)第一階段:HDFS、MapReduce、HBase(NoSQL資料庫)
(*)第二階段:數據分析引擎 ---> Hive、Pig
數據採集引擎 ---> Sqoop、Flume
(*)第三階段:HUE:Web管理工具
ZooKeeper:實現Hadoop的HA
Oozie: 工作流引擎
(3)Spark的學習
(*)第一個階段:Scala編程語言
(*)第二個階段:Spark Core-----> 基於記憶體,數據的計算
(*)第三個階段:Spark SQL -----> 類似Oracle中的SQL語句
(*)第四個階段:Spark Streaming ---> 進行實時計算(流式計算):比如:自來水廠

4)Apache Storm:類似Spark Streaming ---> 進行實時計算(流式計算):比如:自來水廠
(*)NoSQL:Redis基於記憶體的資料庫


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.在已經安裝好系統的linux伺服器上關閉selinux和iptables 2.在所有linux伺服器上配置ntp服務並設置ntp時間同步 3.在所有linux伺服器上安裝好cm和cdh版本所需要對應的java版本 (1).下載java包到/usr/local目錄解壓 (2).添加java環境到/... ...
  • 備份 使用維護計劃嚮導創建備份 1. 啟動維護計劃嚮導 2. 填入計劃名稱,選擇每項任務單獨計劃 3. 選擇完整備份和清除任務 4. 配置完整備份任務,選擇備份資料庫 5. 設置備份文件保存位置, 6. 指定壓縮備份,設置執行計劃時間為每天執行,並 勾選僅複製備份 7. 配置清除任務的文件位置,擴展 ...
  • 在進行Spark Streaming的開發時,我們常常需要將DStream轉為DataFrame來進行進一步的處理, 共有兩種方式,方式一: 利用map運算元和tuple來完成,一般的場景下採用這種方式即可。 但是有的時候我們會遇到列數大於22的情況,這個時候會受到scala的tuple數不能超過22 ...
  • 前言(廢話) 昨天抽了點時間在網上搜列了一個開源項目,項目挺完整的,前後臺分離還帶有微信小程式,我Clone下代碼,經過一番倒騰,嘿~還真就跑起來了。在這個過程中,體驗了一把VUE項目工程細節,因為之前沒有接觸過這一塊,所以還是花費了點時間,好在開源項目的QQ群里樓主幫忙看了一下,才得以順利往後進行 ...
  • 本篇文章首發於頭條號 "單機如何搭建Elasticsearch集群?使用容器技術快速構建集群環境" ,歡迎關註 "頭條號" 和微信公眾號“大數據技術和人工智慧”(微信搜索bigdata_ai_tech)獲取更多乾貨,也歡迎關註 "CSDN博客" 。 在之前的文章里分別介紹過 "Elasticsear ...
  • 報錯信息 無法為該請求檢索數據。 (Microsoft.SqlServer.Management.Sdk.Sfc) 未知屬性 IsMemoryOptimized (Microsoft.SqlServer.Management.Sdk.Sfc) 參考資料 MSSQL Server Management ...
  • 用法:目的更新B表的數據 查詢出A表的欄位,命名為表1。然後更新B表 實例: ...
  • 一、正排索引與倒排索引 1、什麼是正排索引呢? 以一本書為例,一般在書的開始都會有書的目錄,目錄裡面列舉了一本書有哪些章節,大概有哪些內容,以及所對應的頁碼數。這樣,我們在查找一些內容時,就可以通過目錄來定位到這些內容大概在哪頁。因此,書的目錄就可以稱之為正排索引(目錄頁)。 2、什麼時倒排索引呢? ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...