大數據技術原理與應用——大數據概述

来源:https://www.cnblogs.com/baojianxin/archive/2018/07/10/9291355.html
-Advertisement-
Play Games

這篇博文里的好多內容之前在讀《大數據時代》時讀到過,所以就算是補上的讀書筆記? 信息科技為大數據時代提供技術支撐 1.存儲設備容量不斷增加 2.CPU處理能力大幅提升 3.網路帶寬不斷增加 數據產生方式的變革促成大數據時代的來臨 1.運營式系統階段 2.用戶原創內容階段 3.感知式系統階段 大數據的 ...


這篇博文里的好多內容之前在讀《大數據時代》時讀到過,所以就算是補上的讀書筆記?


信息科技為大數據時代提供技術支撐

  1.存儲設備容量不斷增加

  2.CPU處理能力大幅提升

  3.網路帶寬不斷增加


 數據產生方式的變革促成大數據時代的來臨

  1.運營式系統階段

  2.用戶原創內容階段

  3.感知式系統階段


 大數據的概念

  關於“什麼是大數據”這個問題,大家比較認可關於大數據的“4V”說法。大數據的4個“V”,或者說是大數據的四個特點,包含四個層面:數據量大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)和價值密度低(Value)


大數據對科學研究的影響

  1.第一種範式:實驗科學:最初的科學研究階段,人類採用實驗來解決一些科學問題。

  2.第二種範式:理論科學:隨著科學的進步,人類開始採用數學、幾何、物理等理論,構建問題模型和解決方案。

  3.第三種範式:計算科學:計算科學主要用於對各個科學問題進行電腦模擬和其他形式的計算。

  4.第四種範式:數據密集型科學:在大數據環境下,一切將以數據為中心,從數據中發現問題、解決問題,真正體現數據的價值。


 大數據對思維方式的影響

  1.全樣而非抽樣

  2.效率而非精確

  3.相關而非因果


 大數據關鍵技術

  當人們談到大數據的時候,往往並非僅指數據本身,而是數據和大數據技術這二者的結合。所謂大數據技術,是指伴隨著大數據的採集、存儲、分析和應用的相關技術,是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的一系列數據處理和分析技術。

  討論大數據技術時,首先需要瞭解大數據的基本處理流程,主要包括數據採集、存儲、分析和結果呈現等環節。數據無處不在,互聯網網站、政務系統、零售系統、辦公系統、自動化生產系統、監控攝像頭、感測器等,每時每刻都在不斷產生數據。這些分散在各處的數據,需要採用相應的設備或軟體進行採集。採集到的數據通常無法直接用於後續的數據分析,因為對於來源眾多、類型多樣的數據而言,數據缺失和語義模糊等問題是不可避免的,因而必須採取相應的措施有效解決這些問題,這就需要一個被稱為“數據預處理”的過程,把數據變成一個可用的狀態。數據預處理以後,會被存放到文件系統或資料庫系統中進行存儲與管理,然後採用數據挖掘工具對數據進行處理分析,最後採用可視化工具為用戶呈現結果。在整個數據處理過程中,還必須註意隱私保護和數據安全等問題。

  因此,從數據分析全流程的角度,大數據技術主要包括數據採集與預處理、數據存儲和管理、數據處理與分析、數據安全和隱私保護等幾個層面的內容。


 大數據計算模式

  大數據處理的問題複雜多樣,單一的計算模式是無法滿足不同類型的計算需求的,MapReduce只是大數據計算模式中的一種,它代表了針對大規模數據的批量處理技術,除此之外,還有查詢分析計算、圖計算、流計算等多種大數據計算模式。

  1.批處理計算:批處理計算主要解決針對大規模數據的批量處理,也就是我們日常數據分析工作中非常常見的一類數據處理需求。

  2.流計算:流數據是指在時間分佈和數量上無限的一系列動態數據集合體,數據的價值隨著時間的流逝而降低,因此必須採用實時計算的方式給出秒級響應。流計算可以實時處理來自不同數據源的、連續到達的流數據,經過實時分析處理,給出有價值的分析結果。

  3.圖計算:在大數據時代,許多大數據都是以大規模圖或網路的形式呈現的,如社交網路、傳染病傳播途徑、交通事故對路網的影響等,此外,許多非圖結構的大數據也常常會被轉換為圖模型後再進行處理分析。

  4.查詢分析:針對超大規模數據的存儲管理和查詢分析,需要提供實時或準實時的響應,才能更好地滿足企業經營管理需求。


大數據與雲計算、物聯網

  1.雲計算

    雲計算的概念:雲計算實現了通過網路提供可伸縮的、廉價的分散式計算能力,用戶只需要在具備網路接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。雲計算代表了以虛擬化技術為核心、以低成本為目標、動態可擴展的網路應用設施,是近幾年最有代表性的網路計算技術與模式。

    雲計算的關鍵技術:

    (1)虛擬化:虛擬化技術是雲計算基礎架構的基石,是指將一臺電腦虛擬為多台邏輯電腦,在一臺電腦上同時運行多個邏輯電腦,每個邏輯電腦可運行不同的操作系統,並且應用程式都可以在相互獨立的空間內運行而互不影響,從而顯著提升電腦的工作效率。

    (2)分散式存儲:面對“數據爆炸”的時代,集中式存儲已經無法滿足海量數據的存儲需求,分散式存儲應運而生。

    (3)分散式計算:面對海量數據,傳統的單指令單數據流順序執行的方式已經無法滿足快速數據處理的要求,同時,我們也不能寄希望於通過硬體性能的不斷提升來滿足這種需求,因為晶體管電路已經逐漸接近其物理上的性能極限,摩爾定律已經開始慢慢失效。

    (4)多租戶:多租戶技術目的在於使大量用戶能夠共用同一堆棧軟硬體資源,每個用戶按需使用資源,能夠對軟體服務進行客戶化配置,而不影響其他用戶的使用。

  2.物聯網

    物聯網的概念:物聯網是物物相連的互聯網,是互聯網的延伸,它利用局部網路或互聯網等通信技術把感測器、控制器、機器、人員和物等通過新的方式連在一起,形成人與物、物與物相連,實現信息化和遠程管理控制。

    物聯網關鍵技術:

    (1)識別和感知技術:二維碼、RFID、感測器等。

    (2)網路與通信技術:藍牙、WiFi、互聯網、2G/3G/4G移動網路等。

    (3)數據挖掘與融合技術:物聯網中存在大量數據來源、各種異構網路和不同類型系統,如此大量的不同類型數據,如何有效整合、處理和挖掘,是物聯網處理層需要解決的關鍵技術問題。今天雲計算和大數據技術的出現,為物聯網數據存儲、處理和分析提供了強大的技術支撐,海量物聯網數據可以藉助龐大的雲計算基礎設施實現廉價存儲,利用大數據技術實現快速處理和分析,滿足各種實際應用需求。

  3.大數據與雲計算、物聯網的關係

    雲計算為大數據提供了技術基礎,大數據為雲計算提供用武之地。

    物聯網是大數據的重要來源,大數據技術為物聯網數據分析提供支撐。

    雲計算為物聯網提供海量數據存儲能力,物聯網為雲計算技術提供了廣闊的應用空間。


 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 我發現我的win10不能連接別人的遠程桌面,問題如下: 1.windows10家庭版需要修改註冊表,家庭版沒有組織策略: 2.win+R打開快速啟動命令行輸入"regedit": 3.依次打開:HKEY_LOCAL_MACHINE\Software\Microsoft\Windows\Current ...
  • cd . 當前目錄.. 返回上一級目錄 ../../../返回多級目錄 grep "目標信息" 目標地址 -v :顯示沒有被匹配的信息 mkdir -p:創建多級目錄 mkdir -p /oldboy/test/ 目錄存在也可以反覆創建目錄命令,不會出現報錯 alias 別名 臨時取消別名 \後面添 ...
  • 1.終端執行 /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 2.執行命令後出現兩個錯,並附如何解決 備註:博主本人macos是在虛擬機上跑的,尚未有 ...
  • 生產環境使用 Fedora 28, 並且需要搭建一個 Jupyter 的notebook 方便使用,所搭建的Jupyter 支持單人遠程 密碼訪問 1. 安裝 安裝 Jupyter , 出錯 安裝 redhat-rpm-config 安裝 python-devel 安裝 notebook 2. 運行 ...
  • 第13章 RTX操作系統版本二代示波器實現 本章教程為大家講解RTX操作系統版本的二代示波器實現。主要講解RTOS設計框架,即各個任務實現的功能,任務間的通信方案選擇,任務棧,系統棧以及全局變數共用問題。同時,工程調試方法也專門做了說明。 13.1 註意事項(重要必讀) 13.2 任務功能劃分 13 ...
  • 第1章 什麼是運維 1.1 運維的職責: 1、 數據不能丟 2、 網站7*24小時 3、 用戶體驗要好 要求伺服器穩定性比普通家用機高 1.2 運維人員的原則: 簡單,易用,高效 (簡單,粗暴) 第2章 伺服器的組成詳解 2.1 伺服器 2.1.1 伺服器的類型: 機架式伺服器、刀片式伺服器、塔式服 ...
  • 1、利用netstat查看 TIME_WAIT 情況 2、利用netstat查看是哪個ip遠程訪問了伺服器 3、利用netstat查看指定的網路程式占用了哪個網路埠 ...
  • 游標 游標是sql的一個記憶體工作區,由系統或用戶以變數的形式定義,用於臨時存儲從資料庫中提取的數據塊。 游標分為顯式游標和隱式游標,可自定義顯式游標用來存儲多行多列的數據。 顯式游標一旦打開,就相當於執行了select語句,執行的結果集就存儲在游標中。 隱式游標 在進行DML操作和單行SELECT語 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...