ES 14 - (底層原理) Elasticsearch內部如何處理不同type的數據

来源:https://www.cnblogs.com/shoufeng/archive/2019/04/11/10691796.html
-Advertisement-
Play Games

Elasticsearch的type有什麼用處? 通過type元欄位實現了什麼功能? 底層如何使用? 有哪些註意事項/最佳實踐? 本篇文章對這些內容作一個簡單的探討. ...


目錄

1 type的作用

在Elasticsearch的索引(index)中, 通過標識元欄位_type來區分不同的type, 所以我們可以把具有相同欄位(field)的文檔劃分到同一個type下.

==> 因而_type也稱作映射類型, 即每個type都有各自的mapping.

但即使是類似的數據, 也有可能存在不同的field, 比如:

商品中有電子商品有電壓field;
服裝商品有洗滌方式field;
生鮮商品有營養成分field… 這些不同的field要如何處理呢?

==> 在之前的博文中有提到過: 同一index的不同type中, 同名的field的映射配置必須相同. 這是為什麼呢?

2 type的底層數據結構

Elasticsearch底層所使用的核心工具庫——Lucene中並沒有type的說法, 它在建立索引的時候, 會把所有field的值當做opaque bytes(不透明位元組)類型來處理:

在存儲document時, ES會將該document所屬的type作為一個type欄位進行存儲;

在搜索document時, ES通過_type來進行過濾和篩選.

每個index中的所有type都是存儲在一起的, 因此:

在Elasticsearch 6.0之前: 同一個index的不同type中, 同名的field的映射配置(_type)必須相同.

在Elasticsearch 6.0開始: 一個index中不能擁有多個type.

3 探究type的存儲結構

說明: 從Elasticsearch 6.0開始, 不允許在一個index中創建多個type ——只能創建一個, 否則將發生錯誤:

{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "Rejecting mapping update to [website] as the final mapping would have more than 1 type: [manager, writer]"
      }
    ],
    "type": "illegal_argument_exception",
    "reason": "Rejecting mapping update to [website] as the final mapping would have more than 1 type: [manager, writer]"
  },
  "status": 400
}

這裡演示所用的版本是6.6.10, 特此說明.

3.1 創建索引並配置映射

PUT website
{
    "mappings": {      // Elasticsearch 6.0之後的版本中, 只添加這一個type
        "writer": {
            "properties": {
                "id": { "type": "long" },
                "name": { "type": "text" },
                "age": { "type": "integer" },
                "sex": { "type": "text", "index": false }
            }
        }, 
        "manager": {   // 省去此type
            "properties": {
                "id": { "type": "long" },
                "name": { "type": "text" },
                "age": { "type": "integer" },
                "sex": { "type": "text", "index": false }, 
                "authorize": { "type": "text", "index": false}
            }
        }
    }
}

3.2 添加數據

PUT website/writer/1
{
    "id": 1001,
    "name": "tester",
    "age": 18,
    "sex": "female"
}
// Elasticsearch 6.0之後的版本中, 不添加下述文檔:
PUT website/manager/1
{
    "id": 1001,
    "name": "shou feng",
    "age": 20,
    "sex": "male",
    "authorize": "all"
}

3.3 查看存儲結構

// 搜索所有數據
GET website/_search

// 搜索結果如下:
{
  "hits" : {
    "total" : 1,
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "website",
        "_type" : "writer",    // _type是writer
        "_id" : "1",
        "_score" : 1.0,
        "_source" : {
          "id" : 1001,
          "name" : "tester",
          "age" : 18,
          "sex" : "female"
        }
      },
      {
        "_index": "website",
        "_type": "manager",         // _type為manager
        "_id": "1",
        "_score": 1,
        "_source": {
          "id": 1001,
          "name": "shou feng",
          "age": 20,
          "sex": "male",
          "authorize": "all"
        }
      }
    ]
  }
}

4 關於type的最佳實踐

將結構類似的type存放在同一個index下 —— 這些type的大部分field應該是相同的.

如果將兩個field完全不同的type存入同一個index下, 在Lucene底層存儲時, 每個document中都將有一大部分field是空值, 這將導致嚴重的性能問題, 並且占用磁碟空間:

例如: 上述website/writer的每個document中, 都有"authorize"欄位, 只是它們的值都為空.

—— 從這個角度出發, 大概就能猜出 ES限制一個index中只能有一個type 的原因了吧, 也就是更方便地組織文檔數據、節省磁碟空間

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • FIO是測試IOPS的非常好的工具,用來對硬體進行壓力測試和驗證。磁碟IO是檢查磁碟性能的重要指標,可以按照負載情況分成照順序讀寫,隨機讀寫兩大類。 目前主流的第三方IO測試工具有fio、iometer 和 Orion,這三種工具各有千秋,在linux 下也可以使用dd 進行簡單的磁碟(文件系統)測 ...
  • 1、下載壓縮包:https://github.com/opencv/opencv,在Branch欄選擇3.4版本,clone下載 2、安裝cmake及依賴庫,打開終端,輸入以下命令: 3、解壓所下載的壓縮包,在包含有CmakeList.txt文件的目錄下右鍵打開終端: 新建文件夾build,並切換到 ...
  • 1.前提 由於之前一直用的機械硬碟,電腦用了幾年是越來越慢,所以打算買個SSD,裝個新系統,其他的機械硬碟都當從盤用 2.準備工作 SSD :256G 3星的 WIN10正版光碟一張 外置光碟機一個 3.踩坑 不知是光碟機問題還是光碟問題,在pc上始終識別失敗,導致始終報錯“reboot and sel ...
  • MYSQL ERROR 2003 (HY000): Can't connect to MySQL server on '192.168.10.210' (111) 解決方法 今天在測試MySQL的連接時候,發現連接不通過,並報錯ERROR 2003 (HY000): Can't connect to ...
  • 1. 數據的抽取 1.1 從資料庫中抽取數據生成本地文件 1.1.1 將“數據流任務”控制項拖入“控制流”視窗 1.1.2 選擇數據源 1.1.2.1 將““OLE DB 源””拖入“數據流”視窗,雙擊編輯屬性 1.1.2.2 新建“連接管理器”,輸入資料庫名稱,選擇連接方式,選擇資料庫名,嘗試連接成 ...
  • 一、主拓展模式 主擴展模式通常用來將幾個相似的對象的共有屬性抽取出來,形成一個”公共屬性表“,且“公共屬性表”與“專有屬性表”是“一對一”的關係。“專有屬性表”可以看做是“公共屬性表”的 擴展,兩者合在一起就是對一個特定對象的完整描述,故此得名“主擴展模式”。 主要適用於,對象的個數不多,各個對象之 ...
  • 1、select(查詢) select簡單的查詢分為兩種 註:欄位也就是表結構中的列的名稱 第一種: select 欄位名 from 表名 此種查詢只列出你所需要查詢的欄位,要查詢多個欄位以“,”隔開 第二種: select * from 表名 * 的意思是查詢出此表的所有欄位 額外的內容:dist ...
  • Elasticsearch中每個field都對應一個數據類型. 本篇詳細介紹string、date、array、object、nested、geo等數據類型的作用及主要用法. 歡迎交流( ⊙ o ⊙ ) ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...