Elasticsearch 之 join 關聯查詢及使用場景

来源:https://www.cnblogs.com/Jcloud/archive/2023/05/25/17431794.html
-Advertisement-
Play Games

在Elasticsearch這樣的分散式系統中執行類似SQL的join連接是代價是比較大的,然而,Elasticsearch卻給我們提供了基於水平擴展的兩種連接形式 ...


在Elasticsearch這樣的分散式系統中執行類似SQL的join連接是代價是比較大的,然而,Elasticsearch卻給我們提供了基於水平擴展的兩種連接形式 。這句話摘自Elasticsearch官網,從“然而”來看,說明某些場景某些情況下我們還是可以使用的

一、join總述

1、關係類比

在關係型資料庫中,以MySQL為例,尤其B端類系統且數據量不是特別大的場景,我們經常用到join關鍵字對有關係的兩張或者多張表進行關聯查詢。但是當數據量達到一定量級時,查詢性能就是經常困擾的問題。由於es可以做到數億量級的秒查(具體由分片數量決定),這時候把數據同步到es是我們可以使用解決方案之一。

那麼不禁有疑問問了,由於業務場景的決定,之前必須關聯查詢的兩張表還能做到進行關聯嗎?

答案是可以的,es也提供了類似於關係型資料庫的關聯查詢,但是它又與關係型數據的關聯查詢有明顯的區別與限制。

2、使用場景

如果把關係資料庫原有關聯的兩張表,同步到es後,通常情況下,我們業務開發中會有兩種查詢訴求的場景

場景1

訴求:展示子表維度的明細數據(包含父表和子表中欄位的條件)

方案:對於此種查詢訴求,我們可以把原來關聯的父子表打成父子表欄位混合在一起的大寬表,既能滿足查詢條件,又有查詢性能的保障,也是常用存儲方案之一

場景2

訴求:展示父表維度的明細數據(包含父表和子表中欄位的條件)

方案:然而,對於此種查詢訴求,需要通過子表的條件來查詢出父表的明細結果,場景1的寬表存儲方案是子表明細數據,而最終我們要的是父表明細數據,顯然對於場景1的存儲方案是不能滿足的。如果非要使用場景1的存儲方案,我們還要對寬表結果進行一次groupby或者collapse操作來得到父表結果。

這個時候我們就可以使用es提供的join功能來完成場景2的訴求查詢,同時它也滿足場景1的訴求查詢

3、使用限制

由於es屬於分散式文檔型資料庫,數據自然是存在於多個分片之上的。Join欄位自然不能像關係型資料庫中的join使用。在es中為了保證良好的查詢性能,最佳的實踐是將數據模型設置為非規範化文檔,通過欄位冗餘構造寬表,即存儲在一個索引中。需要滿足條件如下:

(1)父子文檔(數據)必須存儲在同一index中

(2)父子文檔(數據)必須存儲在同一個分片中,通過關聯父文檔ID關聯

(3)一個index中只能包含一個join欄位,但是可以有多個關係

(4)同一個index中,一個父關係可以對應多個子關係,一個子關係只對應一個父關係

4、性能問題

當然執行了join查詢固然性能會受到一定程度的影響。對於帶has_child/has_parent而言,其查詢性能會隨著指向唯一父文檔的匹配子文檔的數量增加而降低。本文開篇第一句摘自es官網描述,從ES官方的描述來看join關聯查詢對性能的損耗是比較大的。

不過,在筆者使用的過程中,在5個分片的前提下,且父表十萬量級,子表數據量在千萬量級的情況下,關聯查詢的耗時還是在100ms內完成的,對於B端許多場景還是可以接受的。

若有類似場景,建議我們在使用前,根據分片的多少和預估未來數據量的大小提前做好性能測試,防止以後數量達到一定程度時,性能有明顯下降,那個時候再改存儲方案得不償失。

二、Mapping

1、舉例說明

這裡以優惠券活動與優惠券明細為例,在一個優惠券活動中可以發放幾千萬的優惠券,所以券活動與券明細是一對多的關係。

券活動表欄位

欄位 說明
activity_id 活動ID
activity_name 活動名稱

券明細表欄位

欄位 說明
coupon_id 券ID
coupon_amount 券面額
activity_id 外鍵-活動ID

2、mapping釋義

join類型的欄位主要用來在同一個索引中構建父子關聯關係。通過relations定義一組父子關係,每個關係都包含一個父級關係名稱和一個或多個子級關係名稱

activity_coupon_field是一個關聯欄位,內部定義了一組join關係,該欄位為自命名

type指定關聯關係是join,固定寫法

relations定義父子關係,activity父類型名稱,coupon子類型名稱,名稱均為自命名

{
	"mappings": {
		"properties": {
			"activity_coupon_field": {
				"type": "join",
				"relations": {
					"activity": "coupon"
				}
			},
			"activity_id": {
				"type": "keyword"
			},
			"activity_name": {
				"type": "keyword"
			},
			"coupon_id": {
				"type": "long"
			},
			"coupon_amount": {
				"type": "long"
			}
		}
	}
}

三、插入數據

1、插入父文檔

在put父文檔數據的時候,我們通常按照某種規則指定文檔ID,方便子文檔數據變更時易於得到父文檔ID。比如這裡我們用activity_id的值:activity_100來作為父id

PUT /coupon/_doc/activity_100
 
{
	"activity_id": 100,
	"activity_name": "年貨節5元促銷優惠券",
	"activity_coupon_field": {
		"name": "activity"
	}
}

2、插入子文檔

上邊已經指定了父文檔ID,而子表中已經包含有activity_id,所以很容易得到父文檔ID

put子文檔數據時候,必須指定父文檔ID,就是父文檔中的_id,這樣父子數據才建立了關聯關係。與此同時還要指定routing欄位為父文檔ID,這樣保證了父子數據在同一分片上。

PUT /coupon/_doc/coupon_12345678?routing=activity_id_100
 
{
	"coupon_id": 12345678,
	"coupon_amount": "5",
	"activity_id": 100,
	"activity_coupon_field": {
		"name": "coupon",
		"parent": "activity_id_100" //父ID
	}
}

四、關聯查詢

1、has_parent查詢(父查子)

根據父文檔條件欄位查詢符合條件的子文檔數據

例如:查詢包含“年貨節”活動字樣,且已經被領取過的券

{
	"query": {
		"bool": {
			"must": [{
				"parent_type": "activity",
				"has_parent": {
					"query": {
						"bool": {
							"must": [{
								"term": {
									"status": {
										"value": 1
									}
								}
							}, {
								"wildcard": {
									"activity_name": {
										"wildcard": "*年貨節*"
									}
								}
							}]
						}
					}
				}
			}]
		}
	}
}

2、has_child查詢(子查父)

根據子文檔條件欄位符合條件的父文檔數據

例如:查詢coupon_id=12345678在那個存在於哪個券活動中

{
	"query": {
		"bool": {
			"must": [{
				"has_child": {
					"type": "coupon",
					"query": {
						"bool": {
							"must": [{
								"term": {
									"coupon_id": {
										"value": 12345678
									}
								}
							}]
						}
					}
				}
			}]
		}
	}
}

參考:Joining queries | Elasticsearch Guide [7.9] | Elastic

以上文中如有不正之處歡迎留言指正

作者:京東零售 李振乾

內容來源:京東雲開發者社區


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄 一、shell簡述 二、shell腳本 三、重定向 四、管道符 五、變數 六、shell腳本基本知識 七、預定義變數小實驗 一、shell簡述 概念:shell解釋器,翻譯官功能,與內核進行溝通的應用程式。 把代碼翻譯為二進位,讓內核處理,負責接收用戶輸入的操作指令(命令)併進行解釋,將需要執 ...
  • 需要先安裝svn linux版打開終端執行 sudo pacman -S svn 安裝完成後執行一下 svn --version 出現這個就說明svn已經安裝完成了,這個時候我們可以執行 svn checkout [路徑] 就可以檢出svn伺服器上相關內容了 但是這個有的時候我們打開文件管理器想要看 ...
  • ZBar是一種流行的二維碼掃描和解碼工具,它在嵌入式系統中擁有廣泛的應用。在嵌入式系統中,我們面臨著有限的資源和更嚴格的性能要求,因此,選擇適當的庫來完成特定的任務非常重要。 ZBar適用於各種嵌入式平臺,包括ARM、x86和MIPS等處理器架構。它可以輕鬆地整合到各種嵌入式系統中,如智能家居設備、 ...
  • 大家新年好,我是呼嚕嚕,在上一篇[簡易加法器](https://mp.weixin.qq.com/s/ahuk_JH8iyH8bwh3VQxpOw)里我們瞭解了半加器和全加器的設計與實現,今天我們來看下CPU中減法器是如何實現的。文章比較長,大家可以收藏反覆觀看 ## 電腦為什麼利用反碼來實現減法 ...
  • Mysql-8.0.27安裝包位置:https://pan.baidu.com/s/1DFfDlnmCh3qVaj091qcpNA 提取碼:vmny 1.首先我們需要準備一個Linux環境,和一個MySql的安裝包(本次採用的mysql安裝包版本為:8.0.27) 2.把文件放在linux下的/us ...
  • 哈嘍大家好,我是鹹魚 鹹魚在《[一文帶你瞭解容器技術的前世今生](https://mp.weixin.qq.com/s?__biz=MzkzNzI1MzE2Mw==&mid=2247484578&idx=1&sn=a8ae0d1c470351a8bbcb6891bae0ca23&chksm=c293 ...
  • > 本文首發於公眾號:Hunter後端 > 原文鏈接:[es筆記七之聚合操作之桶聚合和矩陣聚合](https://mp.weixin.qq.com/s/SFiLEtnUqxncL-ZQj1zqgg) 桶(bucket)聚合併不像指標(metric)聚合一樣在欄位上計算,而是會創建數據的桶,我們可以理 ...
  • ### 一、前言 最近由於工作需要,需要用到kettle工具進行數據遷移轉換。特意找資料學習了一下,kettle基本操作算是學會了。 所學的也結合實際工作進行了驗證。為了防止以後用到忘記了,便寫了幾篇文章記錄一下。 ![快速上手kettle](https://img2023.cnblogs.com/ ...
一周排行
    -Advertisement-
    Play Games
  • 人臉識別技術在現代社會中扮演著越來越重要的角色,比如人臉識別門禁、人臉識別支付、甚至人臉識別網站登錄等。 最近有群友問.NET有沒有人臉識別的組件,小編查閱相關資料介紹下麵幾種.NET人臉識別組件供大家參考。 **1、Microsoft Azure Face API** 簡介:Microsoft A ...
  • # 1. 與 .NET Core 緩存的關係和差異 ABP 框架中的緩存系統核心包是 [Volo.Abp.Caching](https://www.nuget.org/packages/Volo.Abp.Caching) ,而對於分散式緩存的支持,abp 官方提供了基於 Redis 的方案,需要安裝 ...
  • 最近ET做熱更重載dll的時候,返回登陸會重新檢測新的dll,首次登錄之前已經Assembly.Load()過一次dll,第二次返回登陸再次load dll到記憶體中,Invoke執行方法的時候,異常了,有些方法執行了,有些未執行,於是查資料,看到些老資料說Assembly.Load重覆載入同名dll ...
  • 1. 擴展方法 擴展方法使你能夠向現有類型“添加”方法,而無需創建新的派生類型、重新編譯或以其他方式修改原始類型。 擴展方法是一種靜態方法,但可以像擴展類型上的實例方法一樣進行調用。 對於用 C#、F# 和 Visual Basic 編寫的客戶端代碼,調用擴展方法與調用在類型中定義的方法沒有明顯區別 ...
  • 以前在隨筆《Winform開發框架之客戶關係管理系統(CRM)的開發總結系列1-界面功能展示 》的幾篇隨筆中介紹過基於WInform開發框架開發的CRM系統,系統的功能主要也是圍繞著客戶相關信息來進行管理的。本篇隨筆介紹在最新的《SqlSugar開發框架》中整合CRM系統模塊的功能。 ...
  • 隨著技術的發展,ASP.NET Core MVC也推出了好長時間,經過不斷的版本更新迭代,已經越來越完善,本系列文章主要講解ASP.NET Core MVC開發B/S系統過程中所涉及到的相關內容,適用於初學者,在校畢業生,或其他想從事ASP.NET Core MVC 系統開發的人員。 經過前幾篇文章... ...
  • [toc] 這篇文章是我之前總結的一篇文章,因為整理博客的原因,原有博客已經註銷,但這篇文章對一些讀者很有用,所以現在新瓶裝舊酒重新整理回來分享給大家。 最近一段時間生產環境頻繁出問題,每次都會生成一個hs_err_pid*.log文件,因為工作內容的原因,在此之前並沒有瞭解過相關內容,趁此機會學習 ...
  • # 前言 在上一篇文章中,給大家講解了泛型的概念、作用、使用場景,以及泛型集合、泛型介面和泛型類的用法,但受限於篇幅,並沒有把泛型的內容講解完畢。所以今天我們會繼續學習泛型方法、泛型擦除,以及通配符等的內容,希望大家繼續做好學習的準備哦。 *** 全文大約【**4600】** 字,不說廢話,只講可以 ...
  • 昨天遇到參數key大小寫不一致導致校驗簽名失敗的問題,查了很長時間才找到原因。看了一下FastJson源碼,發現JSON.toObject中轉換成對象的時候會忽略大小寫。 所以,當使用了JSON.toObject將json轉成Java對象後,再用JSON.toObject轉成json,key值就變了 ...
  • 基於java的線上商城設計與實現,線上購物平臺,校園購物商城,商品銷售平臺,基於Java的電商平臺;電商平臺,買家和賣家可以在此平臺上進行銷售和交易,節約了大量的線下時間成本,購物車的功能,校園交易平臺等等; ...