毫不誇張地說,咱們後端工程師,無論在哪家公司,呆在哪個團隊,做哪個系統,遇到的第一個讓人頭疼的問題絕對是資料庫性能問題。如果我們有一套成熟的方法論,能讓大家快速、準確的去選擇出合適的優化方案,我相信能夠快速準備解決咱們日常遇到的80%-90%的性能問題。 從解決問題的角度出發,我們得先瞭解到問題的原... ...
前言
毫不誇張地說,咱們後端工程師,無論在哪家公司,呆在哪個團隊,做哪個系統,遇到的第一個讓人頭疼的問題絕對是資料庫性能問題。如果我們有一套成熟的方法論,能讓大家快速、準確的去選擇出合適的優化方案,我相信能夠快速準備解決咱們日常遇到的80%-90%的性能問題。
從解決問題的角度出發,我們得先瞭解到問題的原因;其次我們得有一套思考、判斷問題的流程方式,讓我們合理的站在哪個層面選擇方案;最後從眾多的方案裡面選擇一個適合的方案進行解決問題,找到一個合適的方案的前提,是我們自己對各種方案之間的優缺點、場景有足夠的瞭解,沒有一個方案是完全可以通吃通用的,軟體工程沒有銀彈。
下文的我工作多年以來,曾經使用過的八大方案,結合了平常自己學習收集的一些資料,以系統、全面的方式整理成了這篇博文,也希望能讓一些有需要的同行在工作上、成長上提供一定的幫助。
一、為什麼資料庫會慢?
無論是關係型資料庫還是 NoSQL,任何存儲系統決定於其查詢性能的主要有三種:
- 查找的時間複雜度
- 數據總量
- 高負載
而決定於查找時間複雜度主要有兩個因素:
- 查找演算法
- 存儲數據結構
無論是哪種存儲,數據量越少,自然查詢性能就越高,隨著數據量增多,資源的消耗(CPU、磁碟讀寫繁忙)、耗時也會越來越高。
從關係型資料庫角度出發,索引結構基本固定是 B+Tree,時間複雜度是 O(log n),存儲結構是行式存儲。因此咱們對於關係資料庫能優化的一般只有數據量。
而高負載造成原因有高併發請求、複雜查詢等,導致 CPU、磁碟繁忙等,而伺服器資源不足則會導致慢查詢等問題。該類型問題一般會選擇集群、數據冗餘的方式分擔壓力。
二、應該站在哪個層面思考優化?
從上圖可見,自頂向下的一共有四層,分別是硬體、存儲系統、存儲結構、具體實現。
層與層之間是緊密聯繫的,每一層的上層是該層的載體;因此越往頂層越能決定性能的上限,同時優化的成本也相對會比較高,性價比也隨之越低。
以最底層的具體實現為例,那麼索引的優化的成本應該是最小的,可以說加了索引後無論是 CPU 消耗還是響應時間都是立竿見影降低。
然而一個簡單的語句,無論如何優化加索引也是有局限的,當在具體實現這層沒有任何優化空間的時候就得往上一層【存儲結構】思考,思考是否從物理表設計的層面出發優化(如分庫分表、壓縮數據量等),如果是文檔型資料庫得思考下文檔聚合的結果。
如果在存儲結構這層優化得沒效果,得繼續往再上一次進行考慮,是否關係型資料庫應該不適合用在現在得業務場景?如果要換存儲,那麼得換怎樣得 NoSQL?
所以咱們優化的思路,出於性價比的優先考慮具體實現,實在沒有優化空間了再往上一層考慮。當然如果公司有錢,直接使用鈔能力,繞過了前面三層,這也是一種便捷的應急處理方式。
該篇文章不討論頂與底的兩個層面的優化,主要從存儲結構、存儲系統中間兩層的角度出發進行探討。
三、八大方案總結
資料庫的優化方案核心本質有三種:減少數據量、用空間換性能、選擇合適的存儲系統,這也對應了開篇講解的慢的三個原因:數據總量、高負載、查找的時間複雜度。
這裡大概解釋下收益類型:短期收益,處理成本低,能緊急應對,久了則會有技術債務;長期收益則跟短期收益相反,短期內處理成本高,但是效果能長久使用,擴展性會更好。
靜態數據意思是,相對改動頻率比較低的,也無需過多聯表的,where 過濾比較少。動態數據與之相反,更新頻率高,通過動態條件篩選過濾。
減少數據量
減少數據量類型共有四種方案:數據序列化存儲、數據歸檔、中間表生成、分庫分表。
就如上面所說的,無論是哪種存儲,數據量越少,自然查詢性能就越高,隨著數據量增多,資源的消耗(CPU、磁碟讀寫繁忙)、耗時也會越來越高。
目前市面上的 NoSQL 基本上都支持分片存儲,所以其天然分散式寫的能力從數據量上能得到非常的解決方案。
而關係型資料庫,查找演算法與存儲結構是可以優化的空間比較少,因此咱們一般思考出發點只有從如何減少數據量的這個角度進行選擇優化,因此本類型的優化方案主要針對關係型資料庫進行處理。
1)數據歸檔
註意點:別一次性遷移數量過多,建議低頻率多次限量遷移。像 MySQL 由於刪除數據後是不會釋放空間的,可以執行命令 OPTIMIZE TABLE 釋放存儲空間,但是會鎖表,如果存儲空間還滿足,可以不執行。
建議優先考慮該方案,主要通過資料庫作業把非熱點數據遷移到歷史表,如果需要查歷史數據,可新增業務入口路由到對應的歷史表(庫)。
2)中間表(結果表)
中間表(結果表)其實就是利用調度任務把複雜查詢的結果跑出來存儲到一張額外的物理表,因為這張物理表存放的是通過跑批彙總後的數據,因此可以理解成根據原有的業務進行了高度的數據壓縮。
以報表為例,如果一個月的源數據有數十萬,我們通過調度任務以月的維度生成,那麼等於把原有的數據壓縮了幾十萬分之一。
接下來的季報和年報可以根據月報*N 來進行統計,以這種方式處理的數據,就算三年、五年甚至十年數據量都可以在接受範圍之內,而且可以精確計算得到。那麼數據的壓縮比率是否越低越好?
下麵有一段口訣:
- 欄位越多,粒度越細,靈活性越高,可以以中間表進行不同業務聯表處理。
- 欄位越少,粒度越粗,靈活性越低,一般作為結果表查詢出來。
3)數據序列化存儲
在資料庫以序列化存儲的方式,對於一些不需要結構化存儲的業務來說是一種很好減少數據量的方式,特別是對於一些M*N的數據量的業務場景,如果以M作為主表優化,那麼就可以把數據量維持最多是M的量級。另外像訂單的地址信息,這種業務一般是不需要根據裡面的欄位檢索出來,也比較適合。
這種方案我認為屬於一種臨時性的優化方案,無論是從序列化後丟失了部份欄位的查詢能力,還是這方案的可優化性都是有限的。
4)分庫分表
分庫分表作為資料庫優化的一種非常經典的優化方案,特別是在以前 NoSQL 還不是很成熟的年代,這個方案就如救命草一般的存在。
如今也有不少同行也會選擇這種優化方式,但是從我角度來看,分庫分表是一種優化成本很大的方案。
這裡我有幾個建議:
- 分庫分表是實在沒有辦法的辦法,應放到最後選擇。
- 優先選擇 NoSQL 代替,因為 NoSQL 誕生基本上為了擴展性與高性能。
- 究竟分庫還是分表?量大則分表,併發高則分庫
- 不考慮擴容,一部做到位。因為技術更新太快了,每 3-5 年一大變。
① 拆分方式
只要涉及到這個拆,那麼無論是微服務也好,分庫分表也好,拆分的方式主要分兩種:垂直拆分、水平拆分。
垂直拆分更多是從業務角度進行拆分,主要是為了降低業務耦合度;此外以 SQL Server 為例,一頁是 8KB 存儲,如果在一張表裡欄位越多,一行數據自然占的空間就越大,那麼一頁數據所存儲的行數就自然越少,那麼每次查詢所需要 IO 則越高因此性能自然也越慢。因此反之,減少欄位也能很好提高性能。之前我聽說某些同行的表有 80 個欄位,幾百萬的數據就開始慢了。
水平拆分更多是從技術角度進行拆分,拆分後每張表的結構是一模一樣的,簡而言之就是把原有一張表的數據,通過技術手段進行分片到多張表存儲,從根本上解決了數據量的問題。
② 路由方式
進行水平拆分後,根據分區鍵(sharding key)原來應該在同一張表的數據拆解寫到不同的物理表裡,那麼查詢也得根據分區鍵進行定位到對應的物理表從而把數據給查詢出來。
路由方式一般有三種區間範圍、Hash、分片映射表,每種路由方式都有自己的優點和缺點,可以根據對應的業務場景進行選擇。
區間範圍根據某個元素的區間的進行拆分,以時間為例子,假如有個業務我們希望以月為單位拆分那麼表就會拆分像 table_2022-04,這種對於文檔型、ElasticSearch 這類型的 NoSQL 也適用,無論是定位查詢,還是日後清理維護都是非常的方便的。
那麼缺點也明顯,會因為業務獨特性導致數據不平均,甚至不同區間範圍之間的數據量差異很大。
Hash也是一種常用的路由方式,根據 Hash 演算法取模以數據量均勻分別存儲在物理表裡,缺點是對於帶分區鍵的查詢依賴特別強。如果不帶分區鍵就無法定位到具體的物理表導致相關所有表都查詢一次,而且在分庫的情況下對於 Join、聚合計算、分頁等一些 RDBMS 的特性功能還無法使用。
般分區鍵就一個,假如有時候業務場景得用不是分區鍵的欄位進行查詢,那麼難道就必須得全部掃描一遍?其實可以使用分片映射表的方式,簡單來說就是額外有一張表記錄額外欄位與分區鍵的映射關係。
舉個例子,有張訂單表,原本是以 UserID 作為分區鍵拆分的,現在希望用 OrderID 進行查詢,那麼得有額外得一張物理表記錄了 OrderID 與 UserID 的映射關係。因此得先查詢一次映射表拿到分區鍵,再根據分區鍵的值路由到對應的物理表查詢出來。
可能有些朋友會問,那這映射表是否多一個映射關係就多一張表,還是多個映射關係在同一張表。我優先建議單獨處理,如果說映射表欄位過多,那跟不進行水平拆分時的狀態其實就是一致的,這又跑回去的老問題。
用空間換性能
該類型的兩個方案都是用來應對高負載的場景,方案有以下兩種:分散式緩存、一主多從。
與其說這個方案叫用空間換性能,我認為用空間換資源更加貼切一些。因此兩個方案的本質主要通過數據冗餘、集群等方式分擔負載壓力。
對於關係型資料庫而言,因為他的 ACID 特性讓它天生不支持寫的分散式存儲,但是它依然天然的支持分散式讀。
1)分散式緩存
緩存層級可以分好幾種:客戶端緩存、API 服務本地緩存和分散式緩存,咱們這次只聊分散式緩存。
一般我們選擇分散式緩存系統都會優先選擇 NoSQL 的鍵值型資料庫,例如 Memcached、Redis,如今 Redis 的數據結構多樣性,高性能,易擴展性也逐漸占據了分散式緩存的主導地位。
緩存策略也主要有很多種:Cache-Aside、Read/Wirte-Through、Write-Back,咱們用得比較多的方式主要 Cache-Aside。
具體流程可看下圖:
我相信大家對分散式緩存相對都比較熟悉了,但是我在這裡還是有幾個註意點希望提醒一下大家:
① 避免濫用緩存
緩存應該是按需使用,從 28 法則來看,80% 的性能問題由主要的 20% 的功能引起。濫用緩存的後果會導致維護成本增大,而且有一些數據一致性的問題也不好定位。
特別像一些動態條件的查詢或者分頁,key 的組裝是多樣化的,量大又不好用 keys 指令去處理,當然我們可以用額外的一個 key 把記錄數據的 key 以集合方式存儲,刪除時候做兩次查詢,先查 Key 的集合,然後再遍歷 Key 集合把對應的內容刪除。
這一頓操作下來無疑是非常廢功夫的,誰弄誰知道。
② 避免緩存擊穿
當緩存沒有數據,就得跑去資料庫查詢出來,這就是緩存穿透。
假如某個時間臨界點數據是空的例如周排行榜,穿透過去的無論查找多少次資料庫仍然是空,而且該查詢消耗 CPU 相對比較高,併發一進來因為缺少了緩存層的對高併發的應對,這個時候就會因為併發導致資料庫資源消耗過高,這就是緩存擊穿。資料庫資源消耗過高就會導致其他查詢超時等問題。
該問題的解決方案也簡單,對於查詢到資料庫的空結果也緩存起來,但是給一個相對快過期的時間。有些同行可能又會問,這樣不就會造成了數據不一致了麽?一般有數據同步的方案像分散式緩存、後續會說的一主多從、CQRS,只要存在數據同步這幾個字,那就意味著會存在數據一致性的問題,因此如果使用上述方案,對應的業務場景應允許容忍一定的數據不一致。
③ 不是所有慢查詢都適用
一般來說,慢的查詢都意味著比較吃資源的(CPU、磁碟 I/O)。
舉個例子,假如某個查詢功能需要 3 秒時間,串列查詢的時候並沒什麼問題,我們繼續假設這功能每秒大概 QPS 為 100,那麼在第一次查詢結果返回之前,接下來的所有查詢都應該穿透到資料庫。也就意味著這幾秒時間有 300 個請求到資料庫,如果這個時候資料庫 CPU 達到了 100%,那麼接下來的所有查詢都會超時,也就是無法有第一個查詢結果緩存起來,從而還是形成了緩存擊穿。
2)一主多從
常用的分擔資料庫壓力還有一種常用做法,就是讀寫分離、一主多從。咱們都是知道關係型資料庫天生是不具備分散式分片存儲的,也就是不支持分散式寫,但是它天然的支持分散式讀。
一主多從是部署多台從庫只讀實例,通過冗餘主庫的數據來分擔讀請求的壓力,路由演算法可有代碼實現或者中間件解決,具體可以根據團隊的運維能力與代碼組件支持視情況選擇。
一主多從在還沒找到根治方案前是一個非常好的應急解決方案,特別是在現在雲服務的年代,擴展從庫是一件非常方便的事情,而且一般情況只需要運維或者 DBA 解決就行,無需開發人員接入。
當然這方案也有缺點,因為數據無法分片,所以主從的數據量完全冗餘過去,也會導致高的硬體成本。從庫也有其上限,從庫過多了會主庫的多線程同步數據的壓力。
選擇合適的存儲系統
NoSQL 主要以下五種類型:鍵值型、文檔型、列型、圖型、搜素引擎,不同的存儲系統直接決定了查找演算法、存儲數據結構,也應對了需要解決的不同的業務場景。NoSQL 的出現也解決了關係型資料庫之前面臨的難題(性能、高併發、擴展性等)。
例如,ElasticSearch 的查找演算法是倒排索引,可以用來代替關係型資料庫的低性能、高消耗的 Like 搜索(全表掃描)。而 Redis 的 Hash 結構決定了時間複雜度為 O(1),還有它的記憶體存儲,結合分片集群存儲方式以至於可以支撐數十萬 QPS。
因此本類型的方案主要有兩種:CQRS、替換(選擇)存儲,這兩種方案的最終本質基本是一樣的主要使用合適存儲來彌補關係型資料庫的缺點,只不過切換過渡的方式會有點不一樣。
1)CQRS
CQS(命令查詢分離)指同一個對象中作為查詢或者命令的方法,每個方法或者返回的狀態,要麼改變狀態,但不能兩者兼備。
講解 CQRS 前得瞭解 CQS,有些小伙伴看了估計還沒不是很清晰,我這裡用通俗的話解釋:某個對象的數據訪問的方法里,要麼只是查詢,要麼只是寫入(更新)。
而 CQRS(命令查詢職責分離)基於 CQS 的基礎上,用物理資料庫來寫入(更新),而用另外的存儲系統來查詢數據。
因此我們在某些業務場景進行存儲架構設計時,可以通過關係型資料庫的 ACID 特性進行數據的更新與寫入,用 NoSQL 的高性能與擴展性進行數據的查詢處理。
這樣的好處就是關係型資料庫和 NoSQL 的優點都可以兼得,同時對於某些業務不適於一刀切的替換存儲的也可以有一個平滑的過渡。
從代碼實現角度來看,不同的存儲系統只是調用對應的介面 API,因此 CQRS 的難點主要在於如何進行數據同步。
2)數據同步方式
一般討論到數據同步的方式主要是分推和拉:
- 推指的是由數據變更端通過直接或者間接的方式把數據變更的記錄發送到接收端,從而進行數據的一致性處理,這種主動的方式優點是實時性高。
- 拉指的是接收端定時的輪詢資料庫檢查是否有數據需要進行同步,這種被動的方式從實現角度來看比推簡單,因為推是需要數據變更端支持變更日誌的推送的。
而推的方式又分兩種:CDC(變更數據捕獲)和領域事件。對於一些舊的項目來說,某些業務的數據入口非常多,無法完整清晰的梳理清楚,這個時候 CDC 就是一種非常好的方式,只要從最底層資料庫層面把變更記錄取到就可。
對於已經服務化的項目來說領域事件是一種比較舒服的方式,因為 CDC 是需要資料庫額外開啟功能或者部署額外的中間件,而領域事件則不需要,從代碼可讀性來看會更高,也比較開發人員的維護思維模式。
3)替換(選擇)存儲系統
因為從本質來看該模式與 CQRS 的核心本質是一樣的,主要是要對 NoSQL 的優缺點有一個全面認識,這樣才能在對應業務場景選擇與判斷出一個合適的存儲系統。
這裡我像大家介紹一本書馬丁.福勒《NoSQL精粹》,這本書我重覆看了好幾遍,也很好全面介紹各種 NoSQL 優缺點和使用場景。
當然替換存儲的時候,我這裡也有個建議:加入一個中間版本,該版本做好數據同步與業務開關,數據同步要保證全量與增加的處理,隨時可以重來,業務開關主要是為了後續版本的更新做的一個臨時型的功能,主要避免後續版本更新不順利或者因為版本更新時導致的數據不一致的情況出現。
在跑了一段時間後,驗證了兩個不同的存儲系統數據是一致的後,接下來就可以把數據訪問層的底層調用替換了。如此一來就可以平滑的更新切換。
總結
本文到這裡就把八大方案介紹完了,在這裡再次提醒一句,每個方案都有屬於它的應對場景,咱們只能根據業務場景選擇對應的解決方案,沒有通吃,沒有銀彈。
這八個方案里,大部分都存在數據同步的情況,只要存在數據同步,無論是一主多從、分散式緩存、CQRS 都好,都會有數據一致性的問題導致,因此這些方案更多適合一些只讀的業務場景。
當然有些寫後既查的場景,可以通過過渡頁或者廣告頁通過用戶點擊關閉切換頁面的方式來緩解數據不一致性的情況。
通過這篇文章我相信大家對資料庫設計優化有了一個全面的認識。
作者丨陳珙
本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/Eight_general_solutions_for_database_performance_optimization.html