mysql之數據操作 第一章 添加數據 通常向表中添加數據應該包含表中的所有欄位,即為表中所有欄位添加數據。但也可不包含所有欄位來添加數據 1.1、所有欄位 按照所有欄位來添加數據,有兩種方式: 語法1: insert into 表名(所有欄位) values(欄位對應的值); 語法2: inser ...
大數據導論
1.數據
數據概念:一切能被記錄和查詢的事物
數據價值: 對數據的內容進行深入分析,可以更好的幫助瞭解事和物在現實世界的運行規律
2.大數據概述
大數據是什麼?
狹義上:對海量數據進行處理的軟體技術體系
廣義上:數字化、信息化時代的基礎支撐,以數據為生活賦能
大數據解決了什麼問題?
1.海量數據的存儲
2.海量數據的計算
3.海量數據的傳輸
大數據的核心工作是什麼?
存儲:利用各類大數據技術棧,安全保存海量待處理數據
計算:利用各類大數據技術棧,完成海量數據的價值挖掘
傳輸:利用各類大數據技術棧,協助各個環節的數據傳輸
3.大數據特征
特征可以簡單概括為"5V"(大、多、值、快、信)
大:數據題量大,一般計量單位是P(1000 T),E(100萬 T)
多:種類來源多樣化,包括結構化,半結構化,非結構化數據。如網路日誌、音頻、視頻、圖片、地理位置信息等。
值:數據價值高但是低價值密度
快:速度快,數據增長速度快,處理速度快,時效性要求高。
信:數據準確度高
總的來說,大數據就是從海量的高增長、多類別、低信息密度的數據中挖掘出高質量的結果,為企業決策賦能
4.大數據技術棧
Apache軟體基金會(Apache Software Foundation,簡稱 ASF,是專門為運作一個開源軟體項目的 Apache 的團體提供支持的非盈利性組織,這個開源軟體的項目就是 Apache 項目。
存儲
Apache Hadoop-HDFS :HDFS是Apache Hadoop Core項目的一部分,(Hadoop Distributed File System) Hadoop分散式文件存儲系統
Apache Hbase: HBase是Apache的Hadoop項目的子項目
Apache Kudu: 是由Cloudera開源的存儲引擎,貢獻給Apache基金組織
計算
Apache Hadoop-MapReduce: MapReduce組件是最早一代的大數據分散式計算引擎對大數據的發展做出了卓越的貢獻
Apache Hive: Hive是一款以SQL為要開發語言的分散式計算框架。HiveSQL其底層翻譯成了Hadoop的MapReduce程式去執行
Apache Spark: Spark是目前全球範圍內最火熱的分散式記憶體計算引擎。是大數據體系中的明星計算產品
Apache Flink: Flink同樣也是一款明星級的大數據分散式記憶體計算引擎。特別是在實時計算(流計算)領域占據了大多數的國內市場。
傳輸
Apache Sqoop: Sqoop是一款ETL工具,可以協助大數據體系和關係型資料庫之間進行數據傳輸。
Apache Flume: Flume是一款流式數據採集工具,可以從非常多的數據源中完成數據採集傳輸的任務。
Apache Kafka: Kafka是一款分散式的消息系統,可以完成海量規模的數據傳輸工作。Apache Kafka在大數據領域也是明星產品
Apache Pulsar: Pulsar同樣是一款分散式的消息系統。
5.Hadoop
Hadoop是開源的技術框架,提供分散式存儲、計算、資源調度的解決方案
Hadoop:是包含HDFS,MapReduce,YARN三大組件的技術棧
Hadoop的開源版本:Apache開源社區版(原生版本)
Hadoop的商業版本:Cloudera等商業公司自行進行二次封裝的商業版