Elasticsearch —— bulk批量導入數據

来源:http://www.cnblogs.com/xing901022/archive/2016/03/30/5339419.html
-Advertisement-
Play Games

在使用Elasticsearch的時候,一定會遇到這種場景——希望批量的導入數據,而不是一條一條的手動導入。那麼此時,就一定會需要bulk命令! 更多內容參考 "我整理的Elk教程" bulk批量導入 批量導入可以合併多個操作,比如index,delete,update,create等等。也可以幫助 ...


在使用Elasticsearch的時候,一定會遇到這種場景——希望批量的導入數據,而不是一條一條的手動導入。那麼此時,就一定會需要bulk命令!
更多內容參考我整理的Elk教程

bulk批量導入

批量導入可以合併多個操作,比如index,delete,update,create等等。也可以幫助從一個索引導入到另一個索引。

語法大致如下;

action_and_meta_data\n
optional_source\n
action_and_meta_data\n
optional_source\n
....
action_and_meta_data\n
optional_source\n

需要註意的是,每一條數據都由兩行構成(delete除外),其他的命令比如index和create都是由元信息行和數據行組成,update比較特殊它的數據行可能是doc也可能是upsert或者script,如果不瞭解的朋友可以參考前面的update的翻譯。

註意,每一行都是通過\n回車符來判斷結束,因此如果你自己定義了json,千萬不要使用回車符。不然_bulk命令會報錯的!

一個小例子

比如我們現在有這樣一個文件,data.json:

{ "index" : { "_index" : "test", "_type" : "type1", "_id" : "1" } }
{ "field1" : "value1" }

它的第一行定義了_index,_type,_id等信息;第二行定義了欄位的信息。

然後執行命令:

curl -XPOST localhost:9200/_bulk --data-binary @data.json

就可以看到已經導入進去數據了。

對於其他的index,delete,create,update等操作也可以參考下麵的格式:

{ "index" : { "_index" : "test", "_type" : "type1", "_id" : "1" } }
{ "field1" : "value1" }
{ "delete" : { "_index" : "test", "_type" : "type1", "_id" : "2" } }
{ "create" : { "_index" : "test", "_type" : "type1", "_id" : "3" } }
{ "field1" : "value3" }
{ "update" : {"_id" : "1", "_type" : "type1", "_index" : "index1"} }
{ "doc" : {"field2" : "value2"} }

在Url中設置預設的index和type

如果在路徑中設置了index或者type,那麼在JSON中就不需要設置了。如果在JSON中設置,會覆蓋掉路徑中的配置。

比如上面的例子中,文件中定義了索引為test,類型為type1;而我們在路徑中定義了預設的選項,索引為test333,類型為type333。執行命令後,發現文件中的配置會覆蓋掉路徑中的配置。這樣也提供了統一的預設配置以及個性化的特殊配置的需求。

其他

由於bulk是一次性提交很多的命令,它會把這些數據都發送到一個節點,然後這個節點解析元數據(index或者type或者id之類的),然後分發給其他的節點的分片,進行操作。

由於很多命令執行後,統一的返回結果,因此數據量可能會比較大。這個時候如果使用的是chunk編碼的方式,分段進行傳輸,可能會造成一定的延遲。因此還是對條件在客戶端進行一定的緩衝,雖然bulk提供了批處理的方法,但是也不能給太大的壓力!

最後要說一點的是,Bulk中的操作執行成功與否是不影響其他的操作的。而且也沒有具體的參數統計,一次bulk操作,有多少成功多少失敗。

擴展:在Logstash中,傳輸的機制其實就是bulk,只是他使用了Buffer,如果是伺服器造成的訪問延遲可能會採取重傳,其他的失敗就只丟棄了....


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 漢字字元的編碼為雙位元組,對於漢字字元和單位元組字元混排的情況,如果目標截取的字元串內只包含奇數個單位元組字元,則會出現半個漢字字元的問題。如下所示: (1)天水市秦州區南郭路2號(工行七里墩分理處? --包含數字字元,單位元組。 (2)七里河區金港城金福花園20號樓3號(金港城?--包含數字字元,單位元組。 ...
  • 一元運算符: 二元運算符 三元運算符 ...
  • CSRF(Cross Site Request Forgery, 跨站域請求偽造) CSRF 背景與介紹 CSRF(Cross Site Request Forgery, 跨站域請求偽造)是一種網路的攻擊方式,它在 2007 年曾被列為互聯網 20 大安全隱患之一。其他安全隱患,比如 SQL 腳本註 ...
  • 為什麼要用封裝 安全 方便 降低耦合封裝的步驟:1.將屬性變為private修飾2.寫封裝的方法 public void setXxx(參數){ //根據處理邏輯給屬性賦值 } public 屬性類型 getXxx(){ //return 屬性值 }訪問修飾符 一個.java文件可以定義多個clas ...
  • 1.記事本開發一個Java程式 編寫源程式 源程式以.java為尾碼名 編譯 javac 編譯後生成的文件以.class為尾碼名 運行 java 運行編譯後生成的.class文件2.java程式框架public class Hello{ public static void main(String[ ...
  • maven出現後,很多公司會用maven來構建項目,單僅僅只是單項目單工程的 並沒有使用多工程來構建,這樣在以後,項目越來越大,業務越來越多以後,項目會難以維護,越發龐大,維護成本提高,團隊士氣也會下降 等等情況,使用maven構建多工程就是如今的趨勢 這邊演示一個maven工程相互依賴的例子,高手 ...
  • 簡介 前段時間寫的java設計模式--代理模式,最近在看Spring Aop的時候,覺得於代理模式應該有密切的聯繫,於是決定瞭解下Spring Aop的實現原理。 說起AOP就不得不說下OOP了,OOP中引入封裝、繼承和多態性等概念來建立一種對象層次結構,用以模擬公共行為的一個集合。但是,如果我們需 ...
  • 上一篇在這 C++混合編程之idlcpp教程Lua篇(3) 與前面的工程相似,工程LuaTutorial2中,同樣加入了三個文件 LuaTutorial2.cpp, Tutorial2.i, tutorial2.lua。其中LuaTutorial2.cpp的內容基本和LuaTutorial1.cpp ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...