Elasticsearch Mapping類型修改

来源:https://www.cnblogs.com/salted/archive/2023/02/17/17130111.html
-Advertisement-
Play Games

新的一年我們加緊了更新迭代的速度,增加了數據湖平臺EasyLake和大數據基礎平臺EasyMR,超40項功能升級優化。我們將繼續保持產品升級節奏,滿足不同行業用戶的更多需求,為用戶帶來極致的產品使用體驗。 以下為袋鼠雲產品功能更新報告第四期內容,更多探索,請繼續閱讀。 數據湖平臺 1.【元數據管理】 ...


背景

通常資料庫進行分庫分表後,目前比較常規的作法,是通過將數據異構到Elasticsearch來提供分頁列表查詢服務;在創建Elasticsearch索引時,基本都是會參考目前的業務需求、關係資料庫中的類型以及對數據的相關規劃來定義相關欄位mapping的類型.
在Elasticsearch的mapping中的列(或則叫屬性),有幾個比較重要的參數(更多參數參考官方文檔)

  • 列類型:type

    指定了該列的數據類型,常用的有text, keyword, date, long, double,boolean以及 objectnested,不同的類型也有對應的不同查詢方式,創建之後是不能修改的;

  • 是否可索引:index

    index選項控制欄位值是否被索引。它接受true or false,並且預設為true. 未索引的欄位不可查詢,當然也不能做為排序欄位。

但是在實際的開發過程中,又會有需求對現有的mapping的type進行修改(類似對MySQL數據表的欄位進行DDL操作)的訴求。比如商品上的價格price欄位,按原來的業務分析,只需要提供數據返回即可,在創建索引時類型定義了keyword了,並且index設置成了false,這時我們需要根據價格的範圍查詢或則進行排序操作,就希望對mapping進行調整,將類型修改成數字類型,索引也需要加上;今天針對Elasticsearch的Mapping類型進行修改,討論幾個可行的方案

方案1:運用reindex

遇到問題第一時間,我們應該是查詢官方文檔是否有相關的操作說明,在官方文檔中,確定能找到對已有mapping更新的相關api put-mapping,通過這個文檔,很快可以找到文檔中對修改已有mapping的列的方式(參考官方文檔),同時也提到的通過 reindex的方式來修改已有類型的方式;

除了支持的mapping parameters外,您不能更改現有欄位的映射或欄位類型。更改現有欄位可能會使已編製索引的數據無效。如果您需要更改欄位的映射,請使用正確的映射創建一個新索引並將您的數據重新索引reindex到該索引中。

如原來索引的mapping如下

PUT /users
{
  "mappings" : {
    "properties": {
      "user_id": {
        "type": "long"
      }
    }
  }
}

//加一了兩條數據
POST /users/_doc?refresh=wait_for
{
    "user_id" : 12345
}

POST /users/_doc?refresh=wait_for
{
    "user_id" : 12346
}

這時想在修改user_id的類型為keyword,我們直接是修改不了的。

//嘗試直接修改type,行不通,會報錯
PUT /users/_mapping
{
    "properties": {
        "user_id": {
            "type": "keyword"
        }
    }
}

//報錯信息
{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "mapper [user_id] of different type, current_type [long], merged_type [keyword]"
      }
    ],
    "type": "illegal_argument_exception",
    "reason": "mapper [user_id] of different type, current_type [long], merged_type [keyword]"
  },
  "status": 400
}

按官方文檔說的reindex重新索引可按以下步驟操作

操作步驟

第一步:創建新的mapping new_usersuser_id的類型定義成 keyword

PUT /new_users
{
  "mappings" : {
    "properties": {
      "user_id": {
        "type": "keyword"
      }
    }
  }
}

第二步:將原user索引標記為只讀

控制我們的應用系統,不再向老索引中寫數據,最好對老索引進行只讀操作設置,保證在reindex的過程中,不要生產新數據,導致新老索數據不一致;

//設置索引為讀寫的
PUT /users/_settings
{
  "settings": {
    "index.blocks.write": true
  }
}

第三步:將原user索引中的數據遷移到new_users

POST /_reindex
{
  "source": {
    "index": "users"
  },
  "dest": {
    "index": "new_users"
  }
}

reindex還有很多的參數可以配置,包括從別一個集群遷移數據都是可以的,詳細可參考:Reindex API

如果新的索引的mapping的定義與原索引的定義有差異的,會按新索引定義的 dynamic 規則進行數據的遷移,具體的,可以參考: dynamic

dynamic設置控制是否可以動態添加新欄位。它接受三種設置:

說明
true 新檢測到的欄位被添加到映射中。(預設); 新增的數據類型的規則,可以參考:dynamic-mapping
false 忽略新檢測到的欄位。這些欄位不會被編入索引,因此將無法搜索,但仍會出現在_source返回的命中欄位中。這些欄位不會添加到映射中,必須明確添加新欄位。
strict 如果檢測到新欄位,則會拋出異常並拒絕文檔。必須將新欄位顯式添加到映射中。

同時將原user索引標記為可讀寫

//設置索引為可讀寫
PUT /users/_settings
{
  "settings": {
    "index.blocks.write": false
  }
}

第四步:切換到使用新的mapping

  1. 可以將應用系統中的配置改成新索引
  2. 也可以通過索引的別名的方式為新索引增加原來老索引的別名來操作,為索引增加別名參考文檔:Add index alias API,在增加別名前,需要刪除原來的老索引;
//為索引增加別名 基本格式
PUT /<index>/_alias/<alias>
POST /<index>/_alias/<alias>

//為new_users索引增加別名users
PUT /new_users/_alias/users

//沒有刪除老索引前,是增加不了別名的,需要先刪除老別名
{
  "error": {
    "root_cause": [
      {
        "type": "invalid_alias_name_exception",
        "reason": "Invalid alias name [users], an index exists with the same name as the alias",
        "index_uuid": "8Rbq_32BTHC4CoO_CqWdXA",
        "index": "users"
      }
    ],
    "type": "invalid_alias_name_exception",
    "reason": "Invalid alias name [users], an index exists with the same name as the alias",
    "index_uuid": "8Rbq_32BTHC4CoO_CqWdXA",
    "index": "users"
  },
  "status": 400
}

方案優劣分析

【優點】操作簡單,官方方案

該方案,不需要對原索引做操作,線上即可進行,並且操作步驟也簡單;也是官方文檔提供的方案。

【缺點】數據量大遷移耗時長

當數據最大時,這個數據遷移會比較耗時

結論

當數據量小時,並且希望mapping比較規整好看,該方案是比較推薦的。當數據量大時,可能該方案在數據遷移過程中,可能就是一個問題,需要評估是否可行了;

方案2:運用multi-fields

為不同的目的以不同的方式索引同一個欄位通常很有用。這就是multi-fields的目的。例如,一個string 欄位可以映射為text用於全文搜索的欄位,也可以映射keyword為用於排序或聚合的欄位;
在這個方案中,應用的是mapping參數fields來對同一個列,定義多種數據類型;詳細[【官方文檔】multi-fields] (https://www.elastic.co/guide/en/elasticsearch/reference/7.5/multi-fields.html)

操作步驟

第一步:為列增加fields屬性

還是用上面的users這個索引為例,我們還是想在為將user_id的類型定義成 keyword

PUT /users/_mapping
{
    "properties":{
        "user_id":{
            "type":"long",
            "fields":{
                "raw":{
                    "type":"keyword"
                }
            }
        }
    }
}

操作完成後,在usersuser_id列下,就多個了個raw的子屬性;在我們正常寫數據user_id時,索引中就會後成兩直索引,一個是long類型的user_id,以及keyword類型的user_id.raw;
該put mapping時,type參數必需有,同時需要跟原來的類型一致,fields中新定義的屬性,可以多個;

方案優劣分析

【優點】不影響原索引,同一列可以定義多種類型

通過這方式不會影響原來的索引數據,可以不修改現在的應用程式,查詢方式與數據寫入方式,都是可以按原來的執行,對應用方無感知,只需要在使用新類型時使用即可,可以說影響是最小的;
同時只是做了一個定義,執行速度是非常快的,對Elasticsearch服務基本不會有太大影響;並且對於同一個列可以定義多個類型,比如商品名稱,在多國環境下可以根據不同語言定義不同的分詞器;

【缺點】老數據不會自動創建子索引,多出額外的存儲

老數據不會自動創建索引,因為需要多出新的索引來,會增加額外的存儲;

結論

1、需要對多一列創建多個索引類型時,是一個非常推薦的方案;
2、對於新索引,只有新業務使用,對老數據沒有訴求的,也非常推薦該方案;

方案3:運用copy_to

copy_to是將多個欄位的值,合併到一個欄位中,便於搜索。但是也可以實現一個欄位存在多個類型的需求。詳細參考【官方文檔】copy_to

操作步驟

還是用上面的users這個索引為例,為user_id創建一個copy列: user_id_raw 類型定義成 keyword

PUT /users/_mapping
{
    "properties":{
        "user_id_raw":{
          "type":"keyword",
          "copy_to":"user_id"
        }
    }
}

這個方案與方案2:multi-fields 基本是一樣的,只是創建列的方式不同,優缺點都一樣;

參考資料

本文來自博客園,作者:阿布-boo,轉載請註明原文鏈接:https://www.cnblogs.com/salted/p/17130111.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 已經支持OpenAI官方的全部api,有bug歡迎朋友們指出,互相學習。 源碼地址:https://github.com/Grt1228/chatgpt-java 不對之處歡迎指正。 註意:由於這個介面: https://platform.openai.com/docs/api-reference/ ...
  • public static class LocalSetupHelper { #region 欄位 /// <summary> /// json文本 /// </summary> private static string json; /// <summary> /// 指定保存路徑 /// </s ...
  • 今天我們購買的每臺電腦都有一個多核心的 CPU,允許它並行執行多個指令。操作系統通過將進程調度到不同的內核來發揮這個結構的優點。然而,還可以通過非同步 I/O 操作和並行處理來幫助我們提高單個應用程式的性能。在.NET Core中,任務 (tasks) 是併發編程的主要抽象表述,但還有其他支撐類可以使 ...
  • 概述 抽象工廠模式為創建一組對象提供了一種解決方案。與工廠方法模式相比,抽象工廠模式中的具體工廠不只是創建一種產品,它負責創建一組產品。抽象工廠模式定義如下: 抽象工廠模式(Abstract Factory Pattern):提供一個創建一系列相關或相互依賴對象的介面,而無須指定它們具體的類。抽象工 ...
  • 01.什麼是實時操作系統(RTOS)? 實時操作系統 (Real-Time Operating System,RTOS) 是一種為實時應用程式提供服務的操作系統,該類操作系統能快速響應並處理數據,處理時間要求以0.1秒的精度進行增量,處理結果能夠在規定的時間之內控制生產過程或對處理系統做出快速響應, ...
  • 1.MQTT服務安裝 下載EMQX做MQTT代理伺服器 https://www.emqx.cn/downloads/broker/v4.2.7/emqx-centos7-4.2.7-x86_64.zip 解壓安裝即可 啟動MQTT伺服器 在emqx/bin目錄下 2、啟動 EMQX(兩種啟動方式:e ...
  • docker 最近迷戀使用doker容器,在docker容器進行部署MySQL,以前針對容器的安全性一直存在懷疑的態度,不過如果能夠通過容器也能資料庫備份問題,就這樣開始docker容器備份 備份和恢復: 第一種方式 #全部備份 [root@localhost home]# docker exec ...
  • 【講故事】 近端時間一直在做一些資料庫查詢的工作,主要是根據表中的“日期”與“產品名”兩個欄位為條件在對錶進行相關查詢。 但當表數據量達到3000萬以上時,發現查詢速度呈幾何級下降,變得超慢不說,而且每查詢一次,伺服器記憶體的使用量就一點點上升直至占用100%,我就不得不重啟伺服器... :( 這時, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...