第1章 大數據概述

来源:https://www.cnblogs.com/hyb958069527/archive/2023/05/04/17370277.html
-Advertisement-
Play Games

1.1 信息與數據 1、信息 人們對於客觀事物屬性和運動狀態的反映。 信息所反映的是關於某一客觀系統中,某一事物的存在方式或某一時刻的運動狀態。 信息可以通過載體傳遞,可以通過信息處理工具進行存儲、加工、傳播、再生和增值。 在信息社會中,信息一般可與物質或能量相提並論,它是一種重要的資源。 2、數據 ...


1.1 信息與數據

1、信息

  • 人們對於客觀事物屬性和運動狀態的反映。

  • 信息所反映的是關於某一客觀系統中,某一事物的存在方式或某一時刻的運動狀態。

  • 信息可以通過載體傳遞,可以通過信息處理工具進行存儲、加工、傳播、再生和增值。

  • 在信息社會中,信息一般可與物質或能量相提並論,它是一種重要的資源。

2、數據(data)

  1. 數據的定義:

    • 是反映客觀事物存在方式或運動狀態的記錄。是信息的載體。

    • 從電腦的角度看,數據泛指那些可以被電腦接受並能夠被設電腦處理的符號,是資料庫中能夠存儲的基本對象。

    • 數據是對現實世界簡化和抽象地表達,當今科技的發展,數據獲取及存儲方式已經發生了根本性的變化,數據資源已經成為了一種“能源”,一種“生產力”。

  2. 數據的特征

    • 數據有“型”和“值”之分

    • 數據使用收數據類型和取值範圍的約束

    • 數據具有多種的表現形式

    • 數據具有明確的語義

1.2 資料庫

1、資料庫的定義

  1. 是以一定的組織方式將相關的數據組織在一起,長期存放在電腦內,可以為多個用戶共用,與應用程式之間彼此獨立,統一管理的數據集合。

  2. 資料庫的資料庫系統的核心部分,是資料庫系統的管理對象。

  3. 資料庫的性質是有數據模型決定的。

    • 若資料庫中數據的組織支持層次模型的特性,則該資料庫為層次資料庫;

    • 若資料庫中數據的組織支持網路模型的特性,則該資料庫為網路資料庫;

    • 若資料庫中數據的組織支持關係模型的特性,則稱為關心型資料庫。

2、資料庫特性

  • 數據按一定的數據模型組織、描述和存儲

  • 可為多用戶共用

  • 冗餘度較小

  • 數據獨立性較高

  • 易擴展

3、資料庫管理系統

  1. 資料庫管理系統定義

    • 資料庫管理系統是位於用戶與操作系統之間,具有數據定義、管理和操縱功能的軟體集合。

    • 資料庫管理系統

      • 提供對資料庫資源進行統一管理和控制的功能,使數據與應用程式隔離,數據具有獨立性;

      • 是數據結構及數據存儲具有一定的規範性,有利於數據共用;

      • 提供安全性和保密性措施,使數據不被破壞,不被竊用‘提供併發控制,保證資料庫的一致性;

      • 提供恢復機制,當出現故障時,數據恢復到一致性狀態。

  2. 資料庫雇你系統功能

    • 數據定義功能

    • 數據操縱功能

    • 資料庫的運行管理功能

    • 資料庫的建立和維護功能

  3. 註意

    • 是支持資料庫得以運行的基礎性的系統,即整個電腦系統。資料庫是資料庫系統的核心和管理對象,每個具體的資料庫及其數據的存儲、維護以及為應用系統提供數據支持,都是在資料庫系統環境下運行完成的。

    • 資料庫系統是實現有組織、動態地存儲大量相關的結構化數據、

      方便各類用戶訪問資料庫的電腦軟/硬體資源的集合。

    • 也可以理解成,資料庫系統是由支持資料庫的硬體環境、資料庫軟體支持環境(操作系統、資料庫管理系統、應用開發工具軟體、應用程式等)、資料庫、開發、使用和管理資料庫應用系統的人員組成。

1.3 大數據

1.3.1 大數據概念

  1. 大數據(Big Data):之前無法在一定時間內內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強大的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。解決海量數據的採集、存儲和分析計算的問題

  2. 所謂數據處理,實際上就是利用電腦對各種類型的數據進行加工處理,它包括對數據的採集、整理、存儲、分類、排序、檢索、維護、加工、統計和傳輸等一系列操作過程。

  3. 隨著電腦軟體、硬體技術的發展,數據處理數量的規模日益擴大,數據處理的應用需求越來越廣泛,數據管理技術的發展也不斷變遷,經歷了從人工管理、文件系統、資料庫系統和分散式系統4個階段。

1.3.2 大數據特點

  1. 大體量(Volume)

    • 隨著感測設備,移動設備,網路寬頻的的成倍增加,線上交易和社交網路,每天生產成千上萬兆位元組的數據,數據規模也在不斷的急劇增長。

    • 大數據的大體量(Volume)是指數據量大以及規模的完整性,全球數據量正以前所未有的速度增長,數據的存儲容量從TB級擴大到BB數量級。

  2. 高速(Velocity)——時效性

    • 增長速度和處理速度。

    • 大數據要求數據處理速度快,是區別於傳統的數據最顯著的特征,現實中,這體現在對數據的實時性需求上,否則,再有價

      值的數據,只要過了時效性,也失去存在的意義。

  3. 多樣性(Variety)

    • 這種類型的多樣性也讓數據被分為結構化數據和非結構化數據

    • 新型多結構的數據量也呈現爆炸式增長, 有統計顯示,在

      未來,結構化數據和非結構化的數據占比懸殊,非結構化的數

      據將達到90%以上。

    • 非結構化數據往往導致數據的異構性,進而加大數據處理複雜性,對數據處理能力提出了更高的要求。

    • 網路日記,電子文檔,電子郵件,網頁,音頻、視頻,圖片,地理位置信息等大量的非結構化數據已經占到了總數據量的很大比重。

  4. 大價值(Value)——低價值密度

    • 大數據的數據價值隱藏在海量數據之中,往往表現為數據價值高但價值密度低的特點。

    • 在大數據中,價值密度的高低與數據總量的大小之間並不存線上性關係,有價值的數據,往往被淹沒在海量無用數據之中,也就是人們常說的,我們淹沒在數據的海洋,卻又在忍受著知識的饑渴。

1.4 大數據應用場景

  • 醫療、保險、等各行各業


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 簡述 2 ansible特點 2.1 工作原理和架構圖 3 anaible任務執行模式 3.1 ansible 任務執行模式 3.2 ansible執行流程 4 安裝和配置 4.1 安裝 4.2 ansible 程式結構 4.3 ansible配置文件查找順序 4.3.1 配置文件常見參數 4. ...
  • 參考文章鏈接:https://blog.csdn.net/weixin_44966641/article/details/121228579 簡介 nvidia smi(也稱為NVSMI)為來自 Fermi 和更高體繫結構系列的 nvidia Tesla、Quadro、GRID 和 GeForce ...
  • 一、前言概述 在寫一些業務邏輯相對複雜點的存儲過程的時候,經常會用到臨時表或者數據表作為臨時結果的保存。但每次在作表是否存在的判斷時,往往想不起完整的SQL寫法。因此,記錄一些常用的資料庫對象是否存在的判斷方法,可以達到快速查找的目的。正是:好記性不如爛筆頭。 二、資料庫相關的判斷 2.1、判斷數據 ...
  • 1.下載mysql 下載地址:https://dev.mysql.com/downloads/mysql/5.7.html#downloads 下載zip免安裝版,可以省去很多事 2.將下載的安裝文件解壓放到磁碟中 3.在mysql解壓縮包根目錄下創建my.ini 文件(mysql主配置文件)並創建 ...
  • GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯繫小編並註明來源。 GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。 作者:Yejinrong/葉金榮 文章來源:GreatSQL社區原創 MySQL 8.0 up up up~ 從MySQL 5.7開始,支持線上動態調整 ...
  • 準備工作 資料庫版本 GreatSQL-8.0.25-17 生成數據 使用 TPC-H 生成數據 #TPC-H Population Generator (Version 3.0.0) #生成10G的數據 $ ./dbgen -vf -s 10 修改my.cnf vim /etc/my.cnf #設 ...
  • 摘要:一條SQL如何被MySQL架構中的各個組件操作執行的,執行器做了什麼?存儲引擎做了什麼?表關聯查詢是怎麼在存儲引擎和執行器被分步執行的?本文帶你探探究竟! 本文分享自華為雲社區《一條SQL如何被MySQL架構中的各個組件操作執行的?》,作者:磚業洋__。 1. 單表查詢SQL在MySQL架構中 ...
  • Hadoop運行集群搭建 虛擬機環境準備 安裝虛擬機及基本配置 IP地址192.168.10.100、主機名稱hadoop100,記憶體4G、硬碟50G 測試下虛擬機聯網情況 1 [root@hadoop100 ~]# ping www.baidu.com 2 PING www.baidu.com ( ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...