MySQL LOAD DATA INFILE—從文件(csv、txt)批量導入數據

来源:https://www.cnblogs.com/NaughtyCat/archive/2020/06/23/mysql-load-data-inflie-and-optimizing.html
-Advertisement-
Play Games

MySQL LOAD DATA INFILE 從文件(csv、txt)批量導入數據 ...


 

 最近做的項目,有個需求(從Elastic Search取數據,業務運算後),每次要向MySQL插入1300萬條數據左右。最初用MySQL的executemany()一次插入10000條數據,統計的時間如下:

 如上,插入時間由於系統的IO變化,會有波動,最快在4秒左右。

 後改為"load data infile"大概,10萬條數據平均1秒~1.5秒,實際的代碼示例如下:

query = "LOAD DATA INFILE '/var/lib/mysql-files/es.csv' INTO TABLE g_visit_relation_asset_temp FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' IGNORE 1 LINES \
                        (srcip, srcport, dstip, dstport, l7p, @dummy, cnt, @dummy, cnt_date)"
mysqlcur.execute(query)
mysqlconn.commit()

說明:

(1)MySQL需要開啟對"load data inflie"的許可權支持

    mysqlcur.execute("SET GLOBAL local_infile = 1") (2)需要對mysql文件目錄(筆者: “/var/lib/my-files/”)具有管理員的許可權(查看mysql路徑,用“locate mysql”) 如果沒有的話,可以指定本地路徑(速度大概要慢%20),需要加上關鍵字"local"即:LOAD DATA LOCAL

(3)Concurrency 支持

 如果預設是 LOW_PRIORITY ,則LOAD DATA要等其它客戶端讀完了,才會開始寫入。加上“Concurrency ”可以,在讀的同時,同時支持寫入,不過速度會稍微下降一點,筆者測試環境影響不大

(4)IGNORE 1 LINES (跳過第一行)

 筆者通過python pandas to_csv()導出的csv是帶標題的,如下:

不需要標題導入到資料庫,就跳過嘛

(5)@dummy ,通過占位符,跳過不需要的數據

導入到表的column順序必須和文件保持一致,通過@dummy可以跳過不需要的column

(6)character set 指定字元集

對於漢字,你需要加上 character set utf8

(8)分隔符及換行符

 以“,“作為分隔符,以“\n"作為換行符: FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'

其他性能優化相關(Only for MyISAM):

通過設置隔離級別、去除索引檢查、唯一性檢查等提高速度(分session和global級別)提高寫入速度,插入之前,設置如下配置:

    mysqlcur.execute("SET SESSION FOREIGN_KEY_CHECKS = 0")
    mysqlcur.execute("SET SESSION UNIQUE_CHECKS = 0")
    mysqlcur.execute("SET SESSION tx_isolation='READ-UNCOMMITTED'")
    mysqlcur.execute("SET SESSION sql_log_bin = 0")

Loda data infile 完了再改回去,如下:

    mysqlcur.execute("SET SESSION FOREIGN_KEY_CHECKS = 1")
    mysqlcur.execute("SET SESSION UNIQUE_CHECKS = 1")
    mysqlcur.execute("SET SESSION tx_isolation='REPEATABLE-READ'")
    mysqlcur.execute("SET SESSION sql_log_bin = 1")

“DISABLE KEYS” 然後 “ENABLE KEYS”,筆者實際測試沒什麼用,只是導入數據更快,總的時間並沒有提升。區別在於:一個是插入一條,創建一個索引;一個是全部導入完了後,再一次創建所有索引。

引用:

*******************************************************************************************

精力有限,想法太多,專註做好一件事就行

  • 我只是一個程式猿。5年內把代碼寫好,技術博客字字推敲,堅持零拷貝和原創
  • 寫博客的意義在於打磨文筆,訓練邏輯條理性,加深對知識的系統性理解;如果恰好又對別人有點幫助,那真是一件令人開心的事

*******************************************************************************************


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 索引首碼 使用 字元串列的索引規範中的語法,您可以創建僅使用列首字元的索引 。以這種方式僅索引列值的首碼可以使索引文件小得多。為a 或 column 編製索引時 , 必須為索引指定首碼長度。例如: col_name(N)NBLOBTEXT CREATE TABLE test (blob_col BL ...
  • 一、異常現象截圖 二、解決方式: 1、背景 早期的canal版本(<=1.0.24),在處理表結構的DDL變更時採用了一種簡單的策略,在記憶體里維護了一個當前資料庫內表結構的鏡像(通過desc table獲取)。 這樣的記憶體表結構鏡像的維護存在問題,如果當前在處理的binlog為歷史時間段T0,當前時 ...
  • 1 select DATE_FORMAT(dtl.transdate,'%Y-%m-%d') as transdate, 2 right(DATE_FORMAT(concat(transdate,transtime),'%Y-%m-%d %H:%i:%s'),8) as 3 transtime,dt ...
  • SELECT語句用於從表中選取/查詢數據,結果被存儲在一個結果表中(稱為結果集)。 ...
  • 本文更新於2020-06-14,使用MySQL 5.7,操作系統為Deepin 15.4。 算數運算符 運算符 語法 說明 + a + b 加法 - a - b 減法 * a * b 乘法 / a / b 除法。類似DIV,但DIV會對結果取整,/的結果可為小數 % a % b 取餘。類似MOD 除 ...
  • Flink 1.9.0及更高版本支持Python,也就是PyFlink。 在最新版本的Flink 1.10中,PyFlink支持Python用戶定義的函數,使您能夠在Table API和SQL中註冊和使用這些函數。但是,聽完所有這些後,您可能仍然想知道PyFlink的架構到底是什麼?作為PyFlin ...
  • redo log 與 binlog redo log redo log (重做日誌)是處於存儲引擎層的,是InnoDB引擎特有的 redo log 存儲的是物理日誌 即,“在某個數據頁上改動了什麼” redo log是迴圈寫,空間是一定的,會用完。 MySQL使用WAL技術 Write-Ahead- ...
  • 不說血淚史,用了網上說的各種存儲過程,各種設置,最後還是第三方軟體解決, 前提:資料庫全表備份,具體怎麼查看度娘一下,用的軟體是ApexSQLLog,資料庫是sqlserver2017向下版本未測試,不知道情況。 百度網盤: https://pan.baidu.com/s/1ACEqEbQ7_UHf ...
一周排行
    -Advertisement-
    Play Games
  • Timer是什麼 Timer 是一種用於創建定期粒度行為的機制。 與標準的 .NET System.Threading.Timer 類相似,Orleans 的 Timer 允許在一段時間後執行特定的操作,或者在特定的時間間隔內重覆執行操作。 它在分散式系統中具有重要作用,特別是在處理需要周期性執行的 ...
  • 前言 相信很多做WPF開發的小伙伴都遇到過表格類的需求,雖然現有的Grid控制項也能實現,但是使用起來的體驗感並不好,比如要實現一個Excel中的表格效果,估計你能想到的第一個方法就是套Border控制項,用這種方法你需要控制每個Border的邊框,並且在一堆Bordr中找到Grid.Row,Grid. ...
  • .NET C#程式啟動閃退,目錄導致的問題 這是第2次踩這個坑了,很小的編程細節,容易忽略,所以寫個博客,分享給大家。 1.第一次坑:是windows 系統把程式運行成服務,找不到配置文件,原因是以服務運行它的工作目錄是在C:\Windows\System32 2.本次坑:WPF桌面程式通過註冊表設 ...
  • 在分散式系統中,數據的持久化是至關重要的一環。 Orleans 7 引入了強大的持久化功能,使得在分散式環境下管理數據變得更加輕鬆和可靠。 本文將介紹什麼是 Orleans 7 的持久化,如何設置它以及相應的代碼示例。 什麼是 Orleans 7 的持久化? Orleans 7 的持久化是指將 Or ...
  • 前言 .NET Feature Management 是一個用於管理應用程式功能的庫,它可以幫助開發人員在應用程式中輕鬆地添加、移除和管理功能。使用 Feature Management,開發人員可以根據不同用戶、環境或其他條件來動態地控制應用程式中的功能。這使得開發人員可以更靈活地管理應用程式的功 ...
  • 在 WPF 應用程式中,拖放操作是實現用戶交互的重要組成部分。通過拖放操作,用戶可以輕鬆地將數據從一個位置移動到另一個位置,或者將控制項從一個容器移動到另一個容器。然而,WPF 中預設的拖放操作可能並不是那麼好用。為瞭解決這個問題,我們可以自定義一個 Panel 來實現更簡單的拖拽操作。 自定義 Pa ...
  • 在實際使用中,由於涉及到不同編程語言之間互相調用,導致C++ 中的OpenCV與C#中的OpenCvSharp 圖像數據在不同編程語言之間難以有效傳遞。在本文中我們將結合OpenCvSharp源碼實現原理,探究兩種數據之間的通信方式。 ...
  • 一、前言 這是一篇搭建許可權管理系統的系列文章。 隨著網路的發展,信息安全對應任何企業來說都越發的重要,而本系列文章將和大家一起一步一步搭建一個全新的許可權管理系統。 說明:由於搭建一個全新的項目過於繁瑣,所有作者將挑選核心代碼和核心思路進行分享。 二、技術選擇 三、開始設計 1、自主搭建vue前端和. ...
  • Csharper中的表達式樹 這節課來瞭解一下表示式樹是什麼? 在C#中,表達式樹是一種數據結構,它可以表示一些代碼塊,如Lambda表達式或查詢表達式。表達式樹使你能夠查看和操作數據,就像你可以查看和操作代碼一樣。它們通常用於創建動態查詢和解析表達式。 一、認識表達式樹 為什麼要這樣說?它和委托有 ...
  • 在使用Django等框架來操作MySQL時,實際上底層還是通過Python來操作的,首先需要安裝一個驅動程式,在Python3中,驅動程式有多種選擇,比如有pymysql以及mysqlclient等。使用pip命令安裝mysqlclient失敗應如何解決? 安裝的python版本說明 機器同時安裝了 ...