一、文件系統存儲 電腦剛開始出現的時候,那時候沒有硬碟,只有記憶體,數據不會進行存儲,一般只用於科技計算,計算完輸出結果後,程式就撤出記憶體了。後來隨著技術發展,有了硬碟、文件,在文件的基礎上有了文件系統。文件系統可以滿足數據存放和查找的需求。 文件系統作為資料庫用了一段時間,當數據越來越多、規模越來 ...
一、文件系統存儲
電腦剛開始出現的時候,那時候沒有硬碟,只有記憶體,數據不會進行存儲,一般只用於科技計算,計算完輸出結果後,程式就撤出記憶體了。後來隨著技術發展,有了硬碟、文件,在文件的基礎上有了文件系統。文件系統可以滿足數據存放和查找的需求。
文件系統作為資料庫用了一段時間,當數據越來越多、規模越來越大後,數據查找特別麻煩。數據很容易重覆(冗餘)、占用存儲空間多,數據結構化被迫推進。
- 資料庫在狹義層面上來說:指的是處理數據的底層程式
- 資料庫在廣義層面上來說:指的是操作這些底層程式的便捷應用軟體
總的來說,資料庫顧名思義其實就是存取數據的地方;另外隨著時間線的發展產生了不同種類的資料庫,但本質技術提升的本質都是為了提升業務性能!
二、關係型資料庫存儲
關係型資料庫也被稱為RDBMS,顧名思義就是信息遵循一種利用表或關係的結構化方法,是一種存儲和操作歷史數據的經典方法。
SQL這個詞既是一種語言,也是資料庫的類型。SQL代表結構化查詢語言,是資料庫設計理念的先驅。自80年代中期以來,SQL一直是管理和查詢關係數據集的標準;然而,關係模型的早期雛形可以追溯到60年代和70年代,當時出現了區分應用數據和應用代碼的迫切需求,使開發人員能夠專註於程式開發的其他方面,如訪問和操作手頭的數據。IBM的IMS是第一個功能齊全的關係型資料庫,儘管設計的目的不同,是為了組織阿波羅太空探索計劃的數據。關係資料庫是各種程度的時間變化的、規範化的關係的集合。可以做出以下直觀的對應。
-
關係資料庫管理系統 (RDBMS) 支持關係(面向二維表)數據模型,表(table)
- RDBMS 中的數據存儲在稱為表的資料庫對象中
-
表的架構(關係架構)由表名和具有固定數據類型的固定數量的屬性/欄位定義,列(column)
- 需要預先定義架構,即需要提前知道所有列及其相關聯的數據類型,以便於應用將數據寫入資料庫
- 一個關係就是一個文件,每個文件只包含一種記錄類型
-
記錄(實體)對應於表中的一行,由每個屬性的值組成,行(row)
-
表架構是通過數據建模過程中的規範化生成的
-
可以存儲通過鍵鏈接多個表的信息,從而創建跨多個表的關係
-
在簡單的用例中,鍵用於檢索特定行以便於進行檢查或修改
-
結構化查詢語言,允許用戶訪問和操作高度結構化表中的數據
-
記錄沒有特定的順序
-
每個欄位都是單值的
-
記錄有一個唯一的識別欄位或複合欄位,稱為主鍵欄位
特性:ACID
原子性、一致性、隔離性、持久性以保持交易的可靠性。
- 原子性:整體完成交易或完全不完成交易
- 一致性:保證資料庫的穩定狀態,無論有無變化
- 隔離性:多個事務不會相互干擾
- 持久性:變化對資料庫的永久影響
範式設計
一個設計高效資料庫的過程
- 1NF:通過分離重覆和不重覆的屬性來分割表。所有的域都是簡單的,所有的元素都是原子性的。
- 2NF:移除屬性之間的部分依賴關係。任何屬性都不應該在功能上依賴於聚合主鍵的一個部分。
- 3NF:移除表屬性之間的傳遞性依賴。沒有首要屬性在功能上依賴於非首要屬性。
可擴展性
資料庫處理不斷增長的數據量的能力。垂直擴展有助於增強資料庫伺服器的現有能力。大多數SQL資料庫支持垂直擴展。然而,他們可以擴大規模,而不是縮小規模。
從使用角度來說用戶不直接接觸資料庫,而是通過我們的應用程式與資料庫進行交互。
如果用戶比較多,發出的請求多了之後,由於我們的資料庫是放置在磁碟,而磁碟的性能是比較低的,所以會導致Web應用程式每次到與資料庫進行交互之後,用戶的響應速度會變慢!
解決方案:池化技術,實現資源的復用(降低資源創建銷毀的開銷)
以上是Web應用與資料庫連接層面的優化,至於在資料庫本身我們也可以進行優化,以提升性能。
- 升級伺服器硬體
- 資料庫索引
- SQL執行計劃
- 慢查詢
- 減少交互次數
- 減少應用到資料庫傳輸的數據量
- 資料庫進行分庫分表、讀寫分離
數據分片,使用分散式集群結構等雖然提高了可擴展性更好了,但也帶來了新的麻煩
1、以前在一個庫里的數據,現在跨了多個庫,應用系統不能自己去多個庫中操作,需要使用資料庫分片中間件
2、分片中間件做簡單的數據操作時還好,但涉及到跨庫join、跨庫事務時就很頭疼了,很多人乾脆自己在業務層處理,複雜度較高
關係型資料庫劣勢
數據建模的僵化
關係型資料庫最大的限制之一是將數據組織到表和關係的特定結構中的僵硬性。由於所有的數據都不能方便地裝入表格,因此這種方法不能應用於所有的自然數據,也不能以樹和圖的形式存儲,但是,RDBMS通過以父子關係的規範化方式對這些數據進行建模來解決這個限制,這仍然是不夠的。
多樣性
數據的複雜性也給關係型資料庫帶來了限制。這些資料庫是按共同特征來組織數據的。複雜的數字、圖像和多媒體數據很難存儲、訪問和處理。
空間使用效率低下
當我們定義關係的模式時,我們定義所有屬性的大小。不是所有的記錄都有使用全部空間的數據。一些有很短的長度。每條記錄不一定又適合給定的數據類型,造成了空間浪費。
沉重的變化
一個記錄所需的任何改變都需要應用於所有的記錄。因此造成了重量級的改變。根據當時存在的記錄的大小和數量,這些改變可能是昂貴的,不可行的。因此,改變一個已經存在的資料庫的模式是一個挑戰。
對大數據來說效率低下
SQL不適合數量大、速度快、種類多的數據,使得它在基於雲的應用中效率很低。
總結:隨著大數據時代的到來,結構化的方法已經無法滿足巨大的信息處理需求,這些信息往往是非結構化的。隨著時間的推移,SQL已經經歷了許多迭代,以支持大量的數據處理和管道。然而,對於期望快速響應和最高可擴展性的大數據系統來說,它仍然是低效的。
三、非關係型資料庫存儲
關係資料庫近期還是非常廣泛使用的模型,它們仍然在許多企業得到了廣泛採用。然而,面對當今多樣化、高速和海量的數據,有時需要用一個高度不同的資料庫來補充關係資料庫。這促進了 NoSQL 資料庫在某些領域的採用,該資料庫也稱為“非關係資料庫”。由於支持快速橫向擴展,因此非關係資料庫可以處理高流量,這也使其具有很強的適應性。非關係型資料庫也即NoSQL(Not Only SQL),目的總結就是高性能,提升可擴展性!
優勢:
- 靈活性:SQL 資料庫將數據存儲在更加嚴格的預定義結構中。NoSQL 則以更加自由的方式來存儲數據,而無需嚴格的模式。這種設計可支持創新和快速應用開發。開發人員可以專註於創建系統來改善客戶服務,無需擔心模式。NoSQL 資料庫可以輕鬆處理任何數據格式,例如單一數據存儲中的結構化、半結構化和非結構化數據。
- 可擴展性:NoSQL 資料庫可以通過商用硬體來實現橫向擴展,而不需要通過添加更多伺服器來進行擴展。這可以支持流量增長,從而滿足零停機需求。通過橫向擴展,NoSQL 資料庫可以擴充容量和處理能力,因此成為支持不斷變化的數據集的首選方案。
- 高性能:當數據量或流量增長時,NoSQL 資料庫的橫向擴展架構的優勢尤為明顯。如下圖所示,該架構可實現快速、可預測的個位數毫秒級響應能力。NoSQL 資料庫還可以攝取數據並快速可靠地交付數據,因此 NoSQL 資料庫可支持應用每天收集 TB 級數據,同時實現高度交互的用戶體驗。如下圖所示,每秒 300 次讀取的傳入速率(藍線)的第 95 次延遲在 3-4 毫秒範圍內,而每秒 150 次寫入的傳入速率(綠線)的第 95 次延遲在 4-5 毫秒範圍內。
- 可用性:NoSQL 資料庫可自動跨多個伺服器、數據中心或雲資源複製數據。而這又可以大幅減少用戶延遲,而不受其地理位置的限制。此特性還有助於減輕資料庫管理的負擔,從而騰出時間專註於其他優先事項。
- 功能強大:NoSQL 資料庫專為具有超高數據存儲需求的分散式數據存儲而設計。這使得 NoSQL 成為大數據、實時 Web 應用、360 度客戶視圖、線上購物、線上游戲、物聯網、社交網路和線上廣告應用的理想方案。
不推薦NoSQL的場景:
- 要求數據規範化:NoSQL 資料庫通常依賴於非規範化數據,可支持使用較少表(或容器)的應用類型,並且其數據關係不是使用引用建模,而是作為嵌入式記錄(或文檔)。財務、會計和企業資源規劃中的許多經典後臺業務應用均依賴高度規範化的數據來防止數據異常和數據重覆。這些應用類型通常不適用於 NoSQL 資料庫。
- 查詢複雜性:NoSQL 資料庫在查詢單個表時性能出眾。然而,隨著查詢複雜性的增加,關係資料庫則是更好的選擇。NoSQL 資料庫通常不會在 WHERE 子句中提供複雜的聯接、子查詢和查詢嵌套。
NoSQL VS RDBMS
RDBMS
- 高度組織化結構化數據
- 結構化查詢語言(SQL)
- 數據和關係都存儲在單獨的表中
- 數據操縱語言,數據定義語言
- 嚴格的一致性,也稱作強一致性
- 嚴格的事務特性
NoSQL
-
不僅僅是SQL
-
沒有聲明性查詢語言
-
沒有預定義的模式
-
鍵 - 值對存儲,列存儲,文檔存儲,圖形資料庫
-
最終一致性,而非ACID屬性
-
非結構化和不可預知的數據
-
CAP定理
-
BASE原則
-
高性能,高可用性和可伸縮性
主要類型
鍵值存儲類型
這是極為靈活的 NoSQL 資料庫類型,因為應用可以完全控制 value 欄位中存儲的內容,沒有任何限制!
典型代表:MemcacheDB、Redis
特點:
- 通過 Key-Value 鍵值的方式來存儲數據,通過key快速查詢到value
- Key 和 Value 可以是簡單的對象,也可以是複雜的對象
- 一般作為緩存使用,故我們也稱作為故也稱作為緩存資料庫
文檔存儲類型
也稱為文檔存儲或面向文檔的資料庫,這些資料庫用於存儲、檢索和管理半結構化數據。無需指定文檔將包含哪些欄位。
典型代表:MongoDB、CouchDB
特點:
- 此類資料庫可存放並獲取文檔,可以是XML、JSON等格式
- 在資料庫中文檔作為處理信息的基本單位,一個文檔就相當於一條記錄
- 文檔資料庫所存放的文檔,就相當於鍵值資料庫所存放的“值”
- 可以對某些欄位建立索引,實現關係資料庫的某些功能
列式存儲類型
這些資料庫以表、行和列的形式來存儲和管理數據。它們廣泛部署於需要用列格式來捕獲無模式數據的應用中。
典型代表:Hbase、Cassandra、Hypertable
特點:將數據按照列進行存儲,最大的特點是方便存儲結構化和半結構化數據,方便做數據壓縮,對針對某一列或者某幾列的查詢有著極大的IO優勢
圖形存儲類型
此資料庫將數據組織為節點和關係,這將顯示節點之間的連接。這支持更加豐富和完整的數據表示。圖形資料庫應用於社交網路、預訂系統和欺詐檢測。
典型代表:Neo4J、FlockDB
特點:
- 利用了圖這種數據結構存儲了實體(對象)之間的關係
最典型的例子就是社交網路中人與人的關係,數據模型主要是以節點和邊(關係)來實現,特點在於能高效地解決複雜的關係問題
- 關係型數據用於存儲明確關係的數據,但對於複雜關係的數據存儲就有些不方便
如社交網路中人物之間的關係,如果用關係型資料庫則非常複雜,用圖形資料庫將非常簡單
總結:
- NoSQL介紹:https://www.guru99.com/nosql-tutorial.html
- MongoDB官網介紹:https://www.mongodb.com/zh-cn/nosql-explained
NoSQL缺點
- NoSQL 不保證強一致性,對於普通應用沒問題,但還是有不少像金融一樣的企業級應用有強一致性的需求。
- 缺乏標準化,NoSQL 不支持 SQL 語句,沒有特定的語言,相容性是個大問題,不同的NoSQL 資料庫都有自己的 API 操作數據,比較複雜
四、NewSQL存儲
NewSQL 提供了與 NoSQL 相同的可擴展性,而且仍基於關係模型,還保留了極其成熟的 SQL 作為查詢語言,保證了ACID事務特性。簡單來講,NewSQL就是在傳統關係型資料庫上集成了NoSQL 強大的可擴展性。
傳統的SQL架構設計基因中是沒有分散式的,而NewSQL 生於雲時代,天生就是分散式架構。
NewSQL 的主要特性:
- SQL 支持,支持複雜查詢和大數據分析
- 支持 ACID 事務,支持隔離級別
- 彈性伸縮,擴容縮容對於業務層完全透明
- 高可用,自動容災
總的來說資料庫產品演進就是分為三代:
- 第一代資料庫架構產品:傳統的關係型資料庫主導
- 第二代資料庫架構產品:傳統關係型資料庫 + NoSQL多廠家產品配合使用
- 第三代資料庫架構產品:NewSQL(關係型+NoSQL+大數據+分散式架構完整解決方案)
主流資料庫產品:
RDBMS:Oracle,MySQL,PG,MSSQL,DB2,SQLLite
NoSQL:MongoDB,Redis,ElasticSearch,Cassandra,Neo4j,Solr
NewSQL: Google Spanner,PinCAP TiDB
雲資料庫:Aliyun RDS,DRDS,PolarDB,騰訊雲 TDSQL
參考文章:
- 通俗理解資料庫:https://www.daimabiji.com/teatime/933.html
- SQL vs NoSQL vs NewSQL:https://juejin.cn/post/6992416728990875662
- NewSQL系統綜述:https://zhuanlan.zhihu.com/p/23866692
出處:https://www.cnblogs.com/hanyu-2020/
---------------------------------------------------------
個性簽名:獨學而無友,則孤陋而寡聞。做一個靈魂有趣的人!
如果覺得這篇文章對你有小小的幫助的話,記得在右下角點個“推薦”哦,博主在此感謝!
本文內容若有疏漏請多多包涵,如有錯誤麻煩請指正,如有想法交流非常歡迎在下方評論!