phper使用MySQL 針對千萬級的大表要怎麼優化?

来源:https://www.cnblogs.com/heyue0117/archive/2019/12/18/12059988.html
-Advertisement-
Play Games

有需要學習交流的友人請加入交流群的咱們一起,有問題一起交流,一起進步!前提是你是學技術的。感謝閱讀! 點此加入該群​jq.qq.com 首先採用Mysql存儲千億級的數據,確實是一項非常大的挑戰。Mysql單表確實可以存儲10億級的數據,只是這個時候性能非常差,項目中大量的實驗證明,Mysql單表容 ...


 有需要學習交流的友人請加入交流群的咱們一起,有問題一起交流,一起進步!前提是你是學技術的。感謝閱讀!

點此加入該群​jq.qq.com

首先採用Mysql存儲千億級的數據,確實是一項非常大的挑戰。Mysql單表確實可以存儲10億級的數據,只是這個時候性能非常差,項目中大量的實驗證明,Mysql單表容量在500萬左右,性能處於最佳狀態。

針對大表的優化,主要是通過資料庫分庫分表來解決,目前比較普遍的方案有三個:分區,分庫分表,NoSql/NewSql。實際項目中,這三種方案是結合的,目前絕大部分系統的核心數據都是以RDBMS存儲為主,NoSql/NewSql存儲為輔。

分區

首先來瞭解一下分區方案。

分區表是由多個相關的底層表實現的。這些底層表也是由句柄對象表示,所以我們也可以直接訪問各個分區,存儲引擎管理分區的各個底層表和管理普通表一樣(所有的底層表都必須使用相同的存儲引擎),分區表的索引只是在各個底層表上各自加上一個相同的索引。這個方案對用戶屏蔽了sharding的細節,即使查詢條件沒有sharding column,它也能正常工作(只是這時候性能一般)。

不過它的缺點很明顯:很多的資源都受到單機的限制,例如連接數,網路吞吐等。如何進行分區,在實際應用中是一個非常關鍵的要素之一。

下麵開始舉例:以客戶信息為例,客戶數據量5000萬加,項目背景要求保存客戶的銀行卡綁定關係,客戶的證件綁定關係,以及客戶綁定的業務信息。

此業務背景下,該如何設計資料庫呢。項目一期的時候,我們建立了一張客戶業務綁定關係表,裡面冗餘了每一位客戶綁定的業務信息。

基本結構大致如下:

 

 

查詢時,對銀行卡做索引,業務編號做索引,證件號做索引。隨著需求大增多,這張表的索引會達到10個以上。而且客戶解約再簽約,裡面會保存兩條數據,只是綁定的狀態不同。

假設我們有5千萬的客戶,5個業務類型,每位客戶平均2張卡,那麼這張表的數據量將會達到驚人的5億,事實上我們系統用戶量還沒有過百萬時就已經不行了。這樣的設計絕對是不行的,無論是插入,還是查詢,都會讓系統崩潰。

 

mysql資料庫中的數據是以文件的形勢存在磁碟上的,預設放在/mysql/data下麵(可以通過my.cnf中的datadir來查看), 一張表主要對應著三個文件,一個是frm存放表結構的,一個是myd存放表數據的,一個是myi存表索引的。這三個文件都非常的龐大,尤其是.myd文件,快5個G了。下麵進行第一次分區優化,Mysql支持的分區方式有四種:

 

 

在我們的項目中,range分區和list分區沒有使用場景,如果基於綁定編號做range或者list分區,綁定編號沒有實際的業務含義,無法通過它進行查詢,因此,我們就剩下 HASH 分區和 KEY 分區了,HASH分區僅支持int類型列的分區,且是其中的一列。

KEY 分區倒是可以支持多列,但也要求其中的一列必須是int類型;看我們的庫表結構,發現沒有哪一列是int類型的,如何做分區呢?增加一列,綁定時間列,將此列設置為int類型,然後按照綁定時間進行分區,將每一天綁定的用戶分到同一個區裡面去。

這次優化之後,我們的插入快了許多,但是查詢依然很慢,為什麼?

因為在做查詢的時候,我們也只是根據銀行卡或者證件號進行查詢,並沒有根據時間查詢,相當於每次查詢,mysql都會將所有的分區表查詢一遍。

進行第二次方案優化,既然 HASH 分區和 KEY分區要求其中的一列必須是int類型的,那麼創造出一個int類型的列出來分區是否可以?

分析發現,銀行卡的那串數字有秘密。銀行卡一般是16位到19位不等的數字串,我們取其中的某一位拿出來作為表分區是否可行呢,通過分析發現,在這串數字中,其中確實有一位是0到9隨機生成的,我們基於銀行卡號+隨機位進行KEY分區,每次查詢的時候,通過計算截取出這位隨機位數字,再加上卡號,聯合查詢,達到了分區查詢的目的,需要說明的是,分區後,建立的索引,也必須是分區列,否則Mysql還是會在所有的分區表中查詢數據。

通過銀行卡號查詢綁定關係的問題解決了,那麼證件號呢,如何通過證件號來查詢綁定關係。

前面已經講過,做索引一定是要在分區健上進行,否則會引起全表掃描。我們再創建了一張新表,保存客戶的證件號綁定關係,每位客戶的證件號都是唯一的,新的證件號綁定關係表裡,證件號作為了主鍵,那麼如何來計算這個分區健呢,客戶的證件信息比較龐雜,有身份證號,港澳台通行證,機動車駕駛證等等,如何在無序的證件號里找到分區健。

為瞭解決這個問題,我們將證件號綁定關係表一分為二,其中的一張表專用於保存身份證類型的證件號,另一張表則保存其他證件類型的證件號,在身份證類型的證件綁定關係表中,我們將身份證號中的月數拆分出來作為了分區健,將同一個月出生的客戶證件號保存在同一個區,這樣分成了12個區,其他證件類型的證件號,數據量不超過10萬,就沒有必要進行分區了。

這樣每次查詢時,首先通過證件類型確定要去查詢哪張表,再計算分區健進行查詢。作了分區設計之後,保存2000萬用戶數據時銀行卡表的數據保存文件就分成了10個小文件,證件表的數據保存文件分成了12個小文件,解決了這兩個查詢的問題,還剩下一個問題:業務編號怎麼辦?一個客戶有多個簽約業務,如何進行保存?這時候,採用分區的方案就不太合適了,它需要用到分表的方案。

 

分表

我們前面有提到過對於mysql,其數據文件是以文件形式存儲在磁碟上的。當一個數據文件過大時,操作系統對大文件的操作就會比較麻煩耗時,且有的操作系統就不支持大文件,這個時候就必須分表了。

另外對於mysql常用的存儲引擎是Innodb,它的底層數據結構是B+樹。當其數據文件過大的時候,查詢一個節點可能會查詢很多層次,而這必定會導致多次IO操作進行裝載進記憶體,肯定會耗時的。

除此之外還有Innodb對於B+樹的鎖機制。對每個節點進行加鎖,那麼當更改表結構的時候,這時候就會樹進行加鎖,當表文件大的時候,這可以認為是不可實現的。所以綜上我們就必須進行分表與分庫的操作。

如何進行分庫分表,目前互聯網上有許多的版本,比較知名的一些方案:阿裡的TDDL,DRDS和cobar,京東金融的sharding-jdbc;民間組織的MyCAT;360的Atlas;美團的zebra;其他比如網易,58,京東等公司都有自研的中間件。

這麼多的分庫分表中間件方案歸總起來,就兩類:client模式和proxy模式。

 

 

client模式

 

 

proxy模式

無論是client模式,還是proxy模式。幾個核心的步驟是一樣的:SQL解析,重寫,路由,執行,結果歸併。個人比較傾向於採用client模式,它架構簡單,性能損耗也比較小,運維成本低。

如何對業務類型進行分庫分表。分庫分表最重要的一步,即sharding column的選取,sharding column選擇的好壞將直接決定整個分庫分表方案最終是否成功。而sharding column的選取跟業務強相關。

在我們的項目場景中,sharding column無疑最好的選擇是業務編號。通過業務編號,將客戶不同的綁定簽約業務保存到不同的表裡面去,根據業務編號路由到相應的表中進行查詢,達到進一步優化sql的目的。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一般地,如果該參數是100%表示設備已經接近滿負荷運行了(當然如果是多磁碟,即使%util是100%,因為磁碟的併發能力,所以磁碟使用未必就到了瓶頸)。 ...
  • -n 參數,他有6個不同的開關:DEV | EDEV | NFS | NFSD | SOCK | ALL 。DEV顯示網路介面信息,EDEV顯示關於網路錯誤的統計數據,NFS統計活動的NFS客戶端的信息,NFSD統計NFS伺服器的信息,SOCK顯示套 接字信息,ALL顯示所有5個開關。它們可以單獨或... ...
  • VMware Workstation 14打開虛擬機黑屏解決方法 聽語音 瀏覽:0 | 更新:2017-11-21 16:56 | 標簽:操作系統 虛擬機 VMWARE 1 2 3 4 分步閱讀 最近VMware Workstation 14版本,很多人使用之後發現虛擬機裡面的系統打開之後黑屏,通過 ...
  • Linux下一切都被抽象成了file,哪些進程可以訪問哪些file,不可以訪問哪些file,就是許可權管理。 每個file都有許可權屬性,可以用 查看file的許可權屬性。 3對rwx分別代表,用戶,組,其他人的rwx。 file通過自己的許可權屬性來保護自己,讓符合自己許可權屬性的進程訪問,讓不符合自己許可權 ...
  • 單片機內核Cortex-M3的八個知識點1.指令集 32位ARM指令集:對應ARM狀態 16位Thumb指令集:對應Thumb狀態(是ARM指令集的一個子集)​ 指令集演進圖 2.BKP備份寄存器(42個16位寄存器組成),用來存儲用戶應用程式數據。在Vdd掉電時由Vbat供電。。在待機複位、系統復 ...
  • 對應用程式來講是(-/+ buffers/cach).buffers/cached 是等同可用的,因為buffer/cached是為了提高程式執行的性能,當程式使用記憶體時,buffer/cached會很快地被使用。所以,從應用來看看,以(-/+ buffers/cache)的free和used為主.... ...
  • 1永久增加ip地址和路由 網卡永久添加ip地址 註釋:ens192為管理地址網卡,請根據實際情況進行修改,網關以192.168.160.1為例 複製一份網卡配置文件命名為ifcfg-ens192:1 cd /etc/sysconfig/network-scripts/ cp ifcfg-ens192 ...
  • 一個應用中決定加緩存(Redis,memcached)之前,要考慮的第一個問題就是,引進了緩存之後,會帶來哪些收益(利),付出哪些代價,引起哪些額外的問題(弊)? 任何新的中間件引進,收益和成本都是伴隨的,只有當利大於弊的情況下,能夠容忍其弊端(徹底解決?沒有額外代價又沒有負面影響,是不可能的,那就 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...