數據管理技術的發展 第一節 資料庫技術發展概述 數據模型是資料庫系統的核心和基礎 以數據模型的發展為主線,資料庫技術可以相應地分為三個發展階段: 第一代的網狀、層次資料庫系統 第二代的關係資料庫系統 新一代的資料庫系統 一、第一代資料庫系統 層次資料庫系統 層次模型 網狀資料庫系統 網狀模型 層次模 ...
數據管理技術的發展
第一節 資料庫技術發展概述
- 數據模型是資料庫系統的核心和基礎
- 以數據模型的發展為主線,資料庫技術可以相應地分為三個發展階段:
- 第一代的網狀、層次資料庫系統
- 第二代的關係資料庫系統
- 新一代的資料庫系統
一、第一代資料庫系統
- 層次資料庫系統 層次模型
- 網狀資料庫系統 網狀模型
- 層次模型是網狀模型的特例
第一代資料庫系統有如下兩類代表:
- 1969年IBM公司研製的層次模型資料庫管理系統 IMS。
- DBTG 報告
這兩類資料庫系統具有的共同特點:
- 支持三級模式(外模式、模式、內模式)的體繫結構。模式之間具有轉換(或稱為映射)功能。
- 用存取路徑來表示數據之間的聯繫。
- 獨立的數據定義語言。
- 導航的數據操縱語言。
二、第二代資料庫系統
支持關係數據模式的關係資料庫系統是第二代資料庫系統。
20世紀70年代是關係資料庫理論研究和原型開發的時代。
經過大量高層次的研究和開發取得了以下主要成果:
- 奠定了關係模型的理論基礎,給出了人們一致接受的關係模型的規範說明。
- 研究了關係數據語言,有關係代數、關係演算、SQL語言及QBE等。
- 研製了大量的 RDBMS的原型,攻剋了系統實現中查詢優化、併發控制、故障恢復等一系列關鍵技術。
關係資料庫是以關係模型為基礎的,而關係模型是由數據結構、關係操作和數據完整性三部分組成。
第二代關係資料庫系統具有模型簡單清晰、理論基礎好、數據獨立性強、資料庫語言非過程化和標準化等特點。
三、新一代資料庫系統
從20世紀80年代開始,資料庫界廣泛開展了面向對象資料庫系統(OODBS)的研究。
從面向對象(OO)模型、面向對象資料庫管理系統(OODBMS)實現技術、OODBMS產品研發和應用等各個層面進行了大量的創新工作。
由於面向對象數據模型中許多功能難以實現,面向對象資料庫系統過於複雜不易使用,儘管開發出許多面向對象資料庫產品,但是成熟度低,最終沒有被市場普遍接受。
1990 年高級 DBMS 功能委員會發表了 《第三代資料庫系統宣言》的文章,提出了第三代資料庫系統應具有的三個基本特征,《宣言》中稱為三條基本原則。
這三個基本特征如下:
- 第三代資料庫系統應支持數據管理、對象管理和知識管理。
- 第三代資料庫系統應該是以支持面向對象數據模型為主要特征的資料庫系統
- 只支持面向對象模型的系統不能稱為第三代資料庫系統
- 第三代資料庫系統還應具備其他特征
- 第三代資料庫系統必須保持或繼承第二代資料庫系統的技術
- 第三代資料庫系統必須對其他系統開發
既然對於第三代資料庫系統並沒有形成一致的認識,因而通常把第二代以後的資料庫系統稱為新一代資料庫系統。
資料庫與其他電腦技術相結合,是資料庫技術發展的一個顯著特征。
數據倉庫、工程資料庫、統計資料庫、空間資料庫、科學資料庫等多種資料庫
第二節 數據倉庫與數據挖掘
一、從資料庫到數據倉庫
電腦系統中存在著兩類不同的數據處理工作:
- 操作型處理,也稱為聯機事物處理(Online Transaction Processing,OLTP)
- 分析型處理,也稱為聯機分析處理(Online Analytical Processing,OLAP)
20世紀80年代數據倉庫(Data Warehouse,DW)技術應運而生。
傳統的資料庫技術為操作型處理服務
數據倉庫為分析型處理服務
數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,用以支持管理決策的過程。
數據倉庫用於支持決策,面向分析型數據處理,不同於提供業務效率的操作型資料庫。
數據倉庫對分佈在組織或企業中的多個異構數據源集成,按照決策主題選擇數據並以新的數據模型存儲。
存儲在數據倉庫中的數據一般不能修改。
-
數據倉庫主要有以下特征:
- 面向主題
- 集成性
- 數據的非易失性
- 數據經加工和集成進入數據倉庫後是極少更新的,通常只需要定期載入和更新。
- 數據的時變性
-
粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別,細化程度越高,粒度級就越小,相反地,細化程度越低,粒度級就越大。
- 在數據倉庫中的數據量大小與查詢的詳細程度之間要做出權衡。
-
分割是將數據分散到各自的物理單元中,以便能分別處理,以提高數據處理的效率。
- 數據分割後的單元稱為切片
-
維是人們觀察數據的特定角度,是考慮問題時的一類屬性。
- 維可以有細節程度的不同描述方面(維的層次)
數據集市(Data Mart)的基本思想是自下而上的數據倉庫的開發方法。
- 數據集市
- 獨立的數據集市(Independent Data Mart)
- 從屬的數據集市(Dependent Data Mart)
- 兩種集市的混合
二、數據挖掘技術
數據挖掘(Data Mining)是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中發現並提取隱藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識的一種技術。
它又被稱為資料庫中的知識發現(Knowledge Discovery in Database,KDD),其與資料庫、數理統計、機器學習、模式識別、模糊數學等諸多技術相關。
數據處理不是數據挖掘。
- 數據挖掘具備下列幾種功能:
- 概念描述
- 關聯分析
- 關聯
- 簡單關聯
- 時序關聯
- 因果關聯
- 目的是找出資料庫中隱藏的關聯網。
- 常見的關聯分析演算法有 Apriori、FP-Growth等。
- 關聯
- 分類與預測
- 常見的分類模型機演算法
- 決策樹模型
- 神經網路模型
- 線性回歸模型
- 常見的分類模型機演算法
- 聚類
- 常見的聚類演算法有 K-Means、GMM等。
- 孤立點檢測
- 趨勢和演變分析
- 數據挖掘的過程:
- 確定業務對象
- 數據的選擇
- 數據挖掘的數據主要有兩種來源:
- 從數據倉庫中來
- 從資料庫中來
- 數據挖掘的數據主要有兩種來源:
- 數據的預處理
- 建模
- 模型評估
- 模型部署
- 數據挖掘的過程:
第三節 大數據管理技術
大數據(Big Data)時代
一、大數據的定義
目前大數據尚無統一的定義,通常被認為是數據量很大、數據形式多樣化的數據。
一般意義上,大數據是指無法在可容忍的時間內用現有信息技術和軟、硬體工具對其進行感知、獲取、管理、處理的服務的數據集合,且其具有如下特征:
- 數據量巨大,即大量化(Volume)
- 數據種類繁多,即多樣化(Variety)
- 處理速度快,即快速化(Velocity)
- 價值(Value)密度低
- 價值密度的高低與數據總量的大小成反比
- 大數據的本質並非在於大,而在於其價值含量
二、大數據管理技術典型代表
1 大數據存儲
分散式文件系統 HDFS
2 NoSQL 數據管理系統
- NoSQL 有兩種解釋:
- Non-Relational 非關係資料庫
- Not Only SQL 數據管理技術不僅僅是 SQL
橫向擴展
NoSQL 系統支持的數據存儲模型通常有鍵值(Key-Value)模型、文檔(Document)模型、列(Column)模型和圖(Graph)模型等。
- 鍵值(Key-Value)存儲 哈希函數
- Tokyo Cabinet/Tyrant
- Redis
- Oracle BDB
- 文檔存儲
- CouchDB
- MongoDB
- 列存儲
- Cassandra
- HBase
- 圖存儲
- 結點、屬性、邊
3 MapReduce 技術
MapReduce 以 Key/Value 的分散式存儲系統為基礎,通過元數據集中存儲、數據以 chunk 為單位分佈存儲和數據 chunk 冗餘複製來保證其高可用性。
MapReduce 是一種並行編程模型。
MapReduce 是一種簡單易用的軟體框架。
通常,計算結點和存儲結點是同一個節點,即 MapReduce 框架和 Hadoop 分散式文件系統運行於相同的結點集。
本文來自博客園,作者:QIAOPENGJUN,轉載請註明原文鏈接:https://www.cnblogs.com/QiaoPengjun/p/17294490.html