多進程PHP腳本實現海量數據轉移總結

来源:https://www.cnblogs.com/yaozhengqi/archive/2019/05/12/10854123.html
-Advertisement-
Play Games

背景 由於項目的新版本有大改動,需求是將一些舊表的數據轉移到新表來,於是使用PHP寫了數據腳本,對MySQL的數據進行讀取,計算,轉移,插入等處理,實現千萬級別數據的計算和轉移。這裡面也遇到一些問題,這裡做下總結: 需求 將幾個舊表的數據拷到新表來,有些欄位發生了變化,有些欄位的值需要計算; 單表數 ...


 

背景

由於項目的新版本有大改動,需求是將一些舊表的數據轉移到新表來,於是使用PHP寫了數據腳本,對MySQL的數據進行讀取,計算,轉移,插入等處理,實現千萬級別數據的計算和轉移。這裡面也遇到一些問題,這裡做下總結:

需求

  • 將幾個舊表的數據拷到新表來,有些欄位發生了變化,有些欄位的值需要計算;
  • 單表數據量到達千萬級,而且線上有多個庫,要對腳本進行必要的優化;
  • 腳本執行時間控制在兩個小時之內;

 

實現過程

1、分析表數據的關聯性,整合腳本。

分析了幾個表數據之間的聯繫,可以將一些有關聯的表的數據放在一個數據腳本中,比如user表和user_detail表,這兩個表的數據是有一些關聯的,一些數據值的計算不用重覆讀取,減少腳本的計算操作,節約時間;

 

2、數據讀取時,減少配置數據的載入操作,減少數據查詢操作。

開始數據轉移時,必要的配置數據必須在腳本開始時全部載入進來,不能在轉移時用到再去進行查詢,因為每次查詢都是意味著消耗更多時間。當然這裡有個前提是你的機器記憶體要夠大,PHP的這種載入是比較消耗記憶體的。一個腳本運行起來,記憶體都要占了很多G,這種其實就是用空間換時間的做法。當然,當機器記憶體不夠大,或者性能不夠強時,還是先保證腳本的健壯性,再來考慮性能。

PHP可以使用set_time_limit ( 0 ); @ini_set('memory_limit','2048M');來指定腳本執行的最長時間和使用記憶體的最大值;

 

3、腳本處理數據時,需要分段分批處理。

我們在處理數據時,需要先讀取出用戶id,在根據id查詢表的數據再做處理。就是我們的處理邏輯都是以用戶id為基準,按照用戶id做key,數據做value的方式,遍曆數據。為了減少機器的負載,充分利用機器的性能,我們使用一個while迴圈,每次處理3000個用戶的數據,轉移完後再查詢出3000個用戶的數據,如此類推,直到所有數據處理完,也就是跳出while迴圈。

同時必須要保證數據的有效性,不然insert不進去。這裡還遇到過一個問題,就是在使用PHP的函數批量insert數據時,有時一個sql語句數據量太多,會超過MySQL最大的insert限制,所以在insert之前,需要將需要插入的數據進行分段,也就是對數據進行隔斷處理,分批插入。PHP中可以使用array_slice()對數組數據進行分段。

 

4、將多次MySQL處理集合在一次的commit上。

我們在一次迴圈中是使用了一次try-catch來監控一次操作,當某個數據處理有異常時,就直接拋出異常,保證每次處理數據的完整性。我們每次處理開始前,先開啟一個事務,處理完成後會進行一次提交事務。為了節省時間,可以優化成:開啟一個事務,在遍歷了多個用戶數據後,再進行一次提交,或者在遇到異常後也提交一次,這樣可以保證數據完整,也可以減少多次commit db的操作,節約時間。

 

5、使用shell腳本整合每個PHP腳本,開啟多個PHP進程。

因為我們處理一個庫的數據要涉及到多個PHP腳本,可以使用shell來整合多個腳本,並且讓其順序執行。使用nohub命令不掛斷地運行命令(後面再單獨介紹這個linux命令)。根據機器的核數來開啟多少個PHP進程,充分發揮機器的性能。

 

例子

比如執行一個PHP腳本,可以這樣子:

進程1:php move_user.php a 0 10000

進程2:php move_user.php a 10000 20000

進程3:php move_user.php b 0 10000

進程4:php move_user.php b 10000 20000

 

這樣表示使用PHP cli模式(命令模式)執行一個PHP腳本,對於進程1,a 表示是資料庫a,0 和10000表示從用戶id 0開始,執行到用戶id 10000 結束,一個進程處理10000個用戶數據。

進程2表示執行資料庫a 10000 到20000的用戶數據。

這樣多個進程,可以同時執行多個庫的數據,多個區段的用戶數據,節省時間。

當然,每次處理多少個用戶數據,每次開多少個進程,每次遍歷多少數據,都是根據項目的業務數據,和機器的最大負載來綜合處理,達到一個平衡狀態。

總結

  • 此次數據處理原本預期要一個小時,結果由於其他原因,後面花費了兩個多小時,但整體都是在計劃之內,所以是正常的;
  • PHP和MySQL做數據交互,充分利用了PHP的性能後,瓶頸就在與MySQL更新和插入數據了,我們就是通過分段迴圈處理,分段提交事務來平衡了MySQL的瓶頸;
  • MySQL單表數據太大,後面需要單獨對這塊進行優化,不然以後對數據進行更新和備份時,都要浪費大量的時間;
  • 必須保證腳本邏輯沒有問題,不然後面重跑就很蛋疼了。

 

相關閱讀

PHP+MySQL實現海量數據導入導出的一些總結

 

---------------------------------------------------END----------------------------------------------------

歡迎關註我的公眾號【phper的進階之路】

不斷更新各種技術心得,免費提供各種學習資源!

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 直接在堆外分配一個記憶體(即,native memory)來存儲數據,程式通過JNI直接將數據讀/寫到堆外記憶體中。因為數據直接寫入到了堆外記憶體中,所以這種方式就不會再在JVM管控的堆內再分配記憶體來存儲數據了,也就不存在堆內記憶體和堆外記憶體數據拷貝的操作了。這樣在進行I/O操作時,只需要將這個堆外記憶體地址... ...
  • # 事情是這樣的,我寫的一個程式幀率上不去。 然後發現了一個疑似有問題的地方,如下 這個函數每幀大概會運行幾千次,字典around_dict似乎會被“反覆生成”。如果是的話,那是十分低效的。不如提出來設成全局變數,一次創建反覆使用。 所以寫了下麵的程式驗證是否有這樣的問題 import time g ...
  • 首先我們要瞭解Python函數的基本定義: 函數是什麼? 函數是可以實現一些特定功能的小方法或是小程式。在Python中有很多內建函數,當然隨著學習的深入,你也可以學會創建對自己有用的函數。簡單的理解下函數的概念,就是你編寫了一些語句,為了方便使用這些語句,把這些語句組合在一起,給它起一個名字。使用 ...
  • java8中為什麼要新增LongAdder? LongAdder的實現方式? LongAdder與AtomicLong的對比? ...
  • 學習Java快2年了 有時候改完代碼啟動tomcat測試時,新代碼不生效,這可能就是緩存問題。 所以平時就用以下幾個方法解決,如果還是解決不了,就找老師吧! 1、清理項目 2、移除項目,清理tomcat 3、刪除tomcat目錄下的相關文件,重新在tomcat發佈項目 4、清理瀏覽器緩存 有時候可能 ...
  • java 集合分為 Collection 和 Map 兩大類 Collection 是 Java 集合框架的頂層介面,它是對容器類進行增、刪、改、查的定義,同時繼承了 Iterable 介面,具有對集合或容器中的元素進行遍歷的能力 Collection 繼承了 Iterable 介面,具有了快速遍歷 ...
  • 新聞 "介紹.NET 5" "發佈.NET Core 3.0預覽版5以及F 的REPL" "OpenFsharp CFP開啟" "F 的Giraffe服務端stub生成器被添加到openapi generator中" "FsToolkit.ErrorHandling現在支持TaskResult" " ...
  • python初體驗 ——>>> 模擬體育競技 一、排球訓練營 1. 簡介: 模擬不同的兩個隊伍進行排球的模擬比賽。 2. 模擬原理: 通過輸入各自的能力值(Ⅰ),模擬比賽的進行( P ),最後輸出模擬的結果( O )。 P 簡介:通過產生隨機數得到每局比賽的難度,若小於能力值則表示贏得本局比賽,反之 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...