大數據導論

-Advertisement-

mysql之數據操作第一章添加數據通常向表中添加數據應該包含表中的所有欄位，即為表中所有欄位添加數據。但也可不包含所有欄位來添加數據 1.1、所有欄位按照所有欄位來添加數據，有兩種方式：語法1： insert into 表名(所有欄位) values(欄位對應的值); 語法2： inser ...

大數據導論

1.數據

數據概念:一切能被記錄和查詢的事物
數據價值: 對數據的內容進行深入分析，可以更好的幫助瞭解事和物在現實世界的運行規律

2.大數據概述

大數據是什麼？
狹義上:對海量數據進行處理的軟體技術體系
廣義上:數字化、信息化時代的基礎支撐，以數據為生活賦能

大數據解決了什麼問題？
1.海量數據的存儲
2.海量數據的計算
3.海量數據的傳輸

大數據的核心工作是什麼？
存儲:利用各類大數據技術棧，安全保存海量待處理數據
計算:利用各類大數據技術棧，完成海量數據的價值挖掘
傳輸:利用各類大數據技術棧，協助各個環節的數據傳輸

3.大數據特征

特征可以簡單概括為"5V"(大、多、值、快、信)
大:數據題量大，一般計量單位是P（1000 T），E（100萬 T）
多:種類來源多樣化，包括結構化，半結構化，非結構化數據。如網路日誌、音頻、視頻、圖片、地理位置信息等。
值:數據價值高但是低價值密度
快:速度快，數據增長速度快，處理速度快，時效性要求高。
信:數據準確度高
總的來說，大數據就是從海量的高增長、多類別、低信息密度的數據中挖掘出高質量的結果，為企業決策賦能

4.大數據技術棧

Apache軟體基金會（Apache Software Foundation，簡稱 ASF，是專門為運作一個開源軟體項目的 Apache 的團體提供支持的非盈利性組織，這個開源軟體的項目就是 Apache 項目。

存儲

Apache Hadoop-HDFS :HDFS是Apache Hadoop Core項目的一部分,(Hadoop Distributed File System) Hadoop分散式文件存儲系統

Apache Hbase: HBase是Apache的Hadoop項目的子項目

Apache Kudu: 是由Cloudera開源的存儲引擎,貢獻給Apache基金組織

計算

Apache Hadoop-MapReduce: MapReduce組件是最早一代的大數據分散式計算引擎對大數據的發展做出了卓越的貢獻

Apache Hive: Hive是一款以SQL為要開發語言的分散式計算框架。HiveSQL其底層翻譯成了Hadoop的MapReduce程式去執行

Apache Spark: Spark是目前全球範圍內最火熱的分散式記憶體計算引擎。是大數據體系中的明星計算產品

Apache Flink: Flink同樣也是一款明星級的大數據分散式記憶體計算引擎。特別是在實時計算（流計算）領域占據了大多數的國內市場。

傳輸

Apache Sqoop: Sqoop是一款ETL工具，可以協助大數據體系和關係型資料庫之間進行數據傳輸。

Apache Flume: Flume是一款流式數據採集工具，可以從非常多的數據源中完成數據採集傳輸的任務。

Apache Kafka: Kafka是一款分散式的消息系統，可以完成海量規模的數據傳輸工作。Apache Kafka在大數據領域也是明星產品

Apache Pulsar: Pulsar同樣是一款分散式的消息系統。

5.Hadoop

Hadoop是開源的技術框架，提供分散式存儲、計算、資源調度的解決方案

Hadoop:是包含HDFS,MapReduce，YARN三大組件的技術棧
Hadoop的開源版本:Apache開源社區版（原生版本）
Hadoop的商業版本:Cloudera等商業公司自行進行二次封裝的商業版

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

沁恆 CH32V208(四): CH32V208 網路DHCP示例代碼分析

目錄沁恆 CH32V208(一): CH32V208WBU6 評估板上手報告和Win10環境配置沁恆 CH32V208(二): CH32V208的儲存結構, 啟動模式和時鐘沁恆 CH32V208(三): CH32V208 Ubuntu22.04 Makefile VSCode環境配置沁恆 C ...
解決vmware虛擬機中的linux系統新增硬碟後無法啟動

以 redhat7.4為例，網上的解決方案多是針對ubuntu的，需要進入ubuntu的預覽系統，redhat好像沒這個東西問題：新添磁碟後開機無法進入系統。似乎是因為電腦將新增的空硬碟作為了系統盤進行啟動，所以無法啟動系統。解決方案：只要讓電腦將裝有linux系統的硬碟進行啟動就可以解決 ...
切換Windows的系統語言

切換 Windows 的系統語言 Windows 10 專業版（1）點擊左下角開始菜單欄 --> 設置 --> 時間和語言 --> 語言。（2）點擊添加語言，在彈出的列表框中，選擇你要安裝的語言。（3）下載完語言包後，點擊 Windows 顯示語言下拉框，選擇剛剛安裝的語言。（4）選擇新的語 ...
定時器概述

定時器詳解引出定時器是一個比較常見的數據結構，或者說框架，以一個最簡單的例子引出，在游戲中，冷卻時間使用的就是定時器；所以說定時器是**等待時間過期執行對應時間事件處理( 回調函數 )**的一個框架；補充：下文中可能會出現定時任務，它和時間事件基本上是一個東西那麼現在有一個就有一個問題，該 ...
Ubuntu下串口工具 PicoCOM 的使用和時間戳顯示

Ubuntu下的串口軟體, 除了 CuteCOM, screen, MiniCOM 以外, 還有一個和 MiniCOM 很像的 PicoCOM. 最近在調試 CH340C 串口的過程中, 發現只有 PicoCOM 的連接Reset才能正常工作, 因此單獨記錄一下. ...
ubuntu18.04 ax201網卡驅動安裝遇到的小問題

這個問題弄了半天，希望可以幫到你。首先報一下配置： DELL G15 2023 無線網卡：Intel AX201 BIOS版本為最新（截止到2023.5.15）首先，打開終端ctrl+alt+T 然後，在終端鍵入： uname -r // 查看內核版本 // ax201 需要內核版本5.2+ / ...
讀SQL進階教程筆記16_SQL優化讓SQL飛起來

1. 查詢速度慢並不只是因為SQL語句本身，還可能是因為記憶體分配不佳、文件結構不合理等其他原因 1.1. 都是為了減少對硬碟的訪問 2. 不同代碼能夠得出相同結果 2.1. 從理論上來說，得到相同結果的不同代碼應該有相同的性能 2.2. 遺憾的是，查詢優化器生成的執行計劃很大程度上要受到代碼外部結構 ...
Redis數據結構一之對象的介紹及各版本對應實現

本文首發於公眾號：Hunter後端原文鏈接：Redis數據結構一之對象的介紹及各版本對應實現本篇筆記開始介紹 Redis 數據結構的底層實現。當我們被問到 Redis 中有什麼數據結構，或者說數據類型，我們可能會說有字元串、列表、哈希、集合、有序集合。其實這幾種數據類型在 Redis 中都由 ...