背景 由於項目的新版本有大改動,需求是將一些舊表的數據轉移到新表來,於是使用PHP寫了數據腳本,對MySQL的數據進行讀取,計算,轉移,插入等處理,實現千萬級別數據的計算和轉移。這裡面也遇到一些問題,這裡做下總結: 需求 將幾個舊表的數據拷到新表來,有些欄位發生了變化,有些欄位的值需要計算; 單表數 ...
背景
由於項目的新版本有大改動,需求是將一些舊表的數據轉移到新表來,於是使用PHP寫了數據腳本,對MySQL的數據進行讀取,計算,轉移,插入等處理,實現千萬級別數據的計算和轉移。這裡面也遇到一些問題,這裡做下總結:
需求
- 將幾個舊表的數據拷到新表來,有些欄位發生了變化,有些欄位的值需要計算;
- 單表數據量到達千萬級,而且線上有多個庫,要對腳本進行必要的優化;
- 腳本執行時間控制在兩個小時之內;
實現過程
1、分析表數據的關聯性,整合腳本。
分析了幾個表數據之間的聯繫,可以將一些有關聯的表的數據放在一個數據腳本中,比如user表和user_detail表,這兩個表的數據是有一些關聯的,一些數據值的計算不用重覆讀取,減少腳本的計算操作,節約時間;
2、數據讀取時,減少配置數據的載入操作,減少數據查詢操作。
開始數據轉移時,必要的配置數據必須在腳本開始時全部載入進來,不能在轉移時用到再去進行查詢,因為每次查詢都是意味著消耗更多時間。當然這裡有個前提是你的機器記憶體要夠大,PHP的這種載入是比較消耗記憶體的。一個腳本運行起來,記憶體都要占了很多G,這種其實就是用空間換時間的做法。當然,當機器記憶體不夠大,或者性能不夠強時,還是先保證腳本的健壯性,再來考慮性能。
PHP可以使用set_time_limit ( 0 ); @ini_set('memory_limit','2048M');來指定腳本執行的最長時間和使用記憶體的最大值;
3、腳本處理數據時,需要分段分批處理。
我們在處理數據時,需要先讀取出用戶id,在根據id查詢表的數據再做處理。就是我們的處理邏輯都是以用戶id為基準,按照用戶id做key,數據做value的方式,遍曆數據。為了減少機器的負載,充分利用機器的性能,我們使用一個while迴圈,每次處理3000個用戶的數據,轉移完後再查詢出3000個用戶的數據,如此類推,直到所有數據處理完,也就是跳出while迴圈。
同時必須要保證數據的有效性,不然insert不進去。這裡還遇到過一個問題,就是在使用PHP的函數批量insert數據時,有時一個sql語句數據量太多,會超過MySQL最大的insert限制,所以在insert之前,需要將需要插入的數據進行分段,也就是對數據進行隔斷處理,分批插入。PHP中可以使用array_slice()對數組數據進行分段。
4、將多次MySQL處理集合在一次的commit上。
我們在一次迴圈中是使用了一次try-catch來監控一次操作,當某個數據處理有異常時,就直接拋出異常,保證每次處理數據的完整性。我們每次處理開始前,先開啟一個事務,處理完成後會進行一次提交事務。為了節省時間,可以優化成:開啟一個事務,在遍歷了多個用戶數據後,再進行一次提交,或者在遇到異常後也提交一次,這樣可以保證數據完整,也可以減少多次commit db的操作,節約時間。
5、使用shell腳本整合每個PHP腳本,開啟多個PHP進程。
因為我們處理一個庫的數據要涉及到多個PHP腳本,可以使用shell來整合多個腳本,並且讓其順序執行。使用nohub命令不掛斷地運行命令(後面再單獨介紹這個linux命令)。根據機器的核數來開啟多少個PHP進程,充分發揮機器的性能。
例子
比如執行一個PHP腳本,可以這樣子:
進程1:php move_user.php a 0 10000 進程2:php move_user.php a 10000 20000 進程3:php move_user.php b 0 10000 進程4:php move_user.php b 10000 20000
這樣表示使用PHP cli模式(命令模式)執行一個PHP腳本,對於進程1,a 表示是資料庫a,0 和10000表示從用戶id 0開始,執行到用戶id 10000 結束,一個進程處理10000個用戶數據。
進程2表示執行資料庫a 10000 到20000的用戶數據。
這樣多個進程,可以同時執行多個庫的數據,多個區段的用戶數據,節省時間。
當然,每次處理多少個用戶數據,每次開多少個進程,每次遍歷多少數據,都是根據項目的業務數據,和機器的最大負載來綜合處理,達到一個平衡狀態。
總結
- 此次數據處理原本預期要一個小時,結果由於其他原因,後面花費了兩個多小時,但整體都是在計劃之內,所以是正常的;
- PHP和MySQL做數據交互,充分利用了PHP的性能後,瓶頸就在與MySQL更新和插入數據了,我們就是通過分段迴圈處理,分段提交事務來平衡了MySQL的瓶頸;
- MySQL單表數據太大,後面需要單獨對這塊進行優化,不然以後對數據進行更新和備份時,都要浪費大量的時間;
- 必須保證腳本邏輯沒有問題,不然後面重跑就很蛋疼了。
相關閱讀
PHP+MySQL實現海量數據導入導出的一些總結
---------------------------------------------------END----------------------------------------------------
歡迎關註我的公眾號【phper的進階之路】
不斷更新各種技術心得,免費提供各種學習資源!