haystack+Elasticsearch搜素引擎

来源:https://www.cnblogs.com/longguoliang/archive/2018/07/16/9320540.html
-Advertisement-
Play Games

搜索引擎原理 通過搜索引擎進行數據查詢時,搜索引擎並不是直接在資料庫中進行查詢,而是搜索引擎會對資料庫中的數據進行一遍預處理,單獨建立起一份索引結構數據。 我們可以將索引結構數據想象成是字典書籍的索引檢索頁,裡面包含了關鍵詞與詞條的對應關係,並記錄詞條的位置。 我們在通過搜索引擎搜索時,搜索引擎將關 ...


搜索引擎原理

通過搜索引擎進行數據查詢時,搜索引擎並不是直接在資料庫中進行查詢,而是搜索引擎會對資料庫中的數據進行一遍預處理,單獨建立起一份索引結構數據。

我們可以將索引結構數據想象成是字典書籍的索引檢索頁,裡面包含了關鍵詞與詞條的對應關係,並記錄詞條的位置。

我們在通過搜索引擎搜索時,搜索引擎將關鍵字在索引數據中進行快速對比查找,進而找到數據的真實存儲位置。

 

Elasticsearch

開源的 Elasticsearch 是目前全文搜索引擎的首選。

它可以快速地儲存、搜索和分析海量數據。維基百科、Stack Overflow、Github 都採用它。

Elasticsearch 的底層是開源庫 Lucene。但是,你沒法直接用 Lucene,必須自己寫代碼去調用它的介面。Elastic 是 Lucene 的封裝,提供了 REST API 的操作介面,開箱即用。

Elasticsearch 是用Java實現的。

搜索引擎在對數據構建索引時,需要進行分詞處理。分詞是指將一句話拆解成多個單字或詞,這些字或詞便是這句話的關鍵詞。如

我在廣州。

‘我’、‘在’、‘廣’、‘州’、‘廣州’等都可以是這句話的關鍵詞。

Elasticsearch 不支持對中文進行分詞建立索引,需要配合擴展elasticsearch-analysis-ik來實現中文分詞處理。

 

使用Docker安裝Elasticsearch及其擴展

獲取鏡像,可以通過網路pull

docker image pull delron/elasticsearch-ik:2.4.6-1.0

修改elasticsearch的配置文件 elasticsearc-2.4.6/config/elasticsearch.yml第54行,更改ip地址為本機ip地址

network.host: 10.211.55.5

創建docker容器運行

docker run -dti --network=host --name=elasticsearch -v /home/python/elasticsearch-2.4.6/config:/usr/share/elasticsearch/config delron/elasticsearch-ik:2.4.6-1.0

 

使用haystack對接Elasticsearch

Haystack為Django提供了模塊化的搜索。它的特點是統一的,熟悉的API,可以讓你在不修改代碼的情況下使用不同的搜索後端(比如 Solr, Elasticsearch, Whoosh, Xapian 等等)。

我們在django中可以通過使用haystack來調用Elasticsearch搜索引擎。

1)安裝

pip install drf-haystack
pip install elasticsearch==2.4.1

drf-haystack是為了在REST framework中使用haystack而進行的封裝(如果在Django中使用haystack,則安裝django-haystack即可)。

2)註冊應用

INSTALLED_APPS = [
    ...
    'haystack',
    ...
]

3)配置

在配置文件中配置haystack使用的搜索引擎後端

# Haystack
HAYSTACK_CONNECTIONS = {
    'default': {
        'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine',
        'URL': 'http://10.211.55.5:9200/',  # 此處為elasticsearch運行的伺服器ip地址,埠號固定為9200
        'INDEX_NAME': 'meiduo',  # 指定elasticsearch建立的索引庫的名稱
    },
}

# 當添加、修改、刪除數據時,自動生成索引
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

註意:

HAYSTACK_SIGNAL_PROCESSOR 的配置保證了在Django運行起來後,有新的數據產生時,haystack仍然可以讓Elasticsearch實時生成新數據的索引

4)創建索引類

通過創建索引類,來指明讓搜索引擎對哪些欄位建立索引,也就是可以通過哪些欄位的關鍵字來檢索數據。

在應用中新建search_indexes.py文件,用於存放索引類

from haystack import indexes

from .models import SKU


class SKUIndex(indexes.SearchIndex, indexes.Indexable):
    """
    SKU索引數據模型類
    """
    text = indexes.CharField(document=True, use_template=True)

    def get_model(self):
        """返回建立索引的模型類"""
        return SKU

    def index_queryset(self, using=None):
        """返回要建立索引的數據查詢集"""
        return self.get_model().objects.filter(is_launched=True)

在SKUIndex建立的欄位,都可以藉助haystack由elasticsearch搜索引擎查詢。

其中text欄位我們聲明為document=True,表名該欄位是主要進行關鍵字查詢的欄位, 該欄位的索引值可以由多個資料庫模型類欄位組成,具體由哪些模型類欄位組成,我們用use_template=True表示後續通過模板來指明。其他欄位都是通過model_attr選項指明引用資料庫模型類的特定欄位。

在REST framework中,索引類的欄位會作為查詢結果返回數據的來源。

6)在templates目錄中創建text欄位使用的模板文件

具體在templates/search/indexes/goods/sku_text.txt文件中定義

註意:templates/search/indexes/這個路徑是固定的,goods是你使用的應用名,尾碼_text.txt也是固定的,不能隨便寫

{{ object.name }}
{{ object.caption }}
{{ object.id }}

此模板指明當將關鍵詞通過text參數名傳遞時,可以通過sku的name、caption、id來進行關鍵字索引查詢。

7)手動生成初始索引

python manage.py rebuild_index

8)創建序列化器

在 應用名/serializers.py中創建haystack序列化器

from drf_haystack.serializers import HaystackSerializer

class SKUSerializer(serializers.ModelSerializer):
    """
    SKU序列化器
    """
    class Meta:
        model = SKU
        fields = ('id', 'name', 'price', 'default_image_url', 'comments')

class SKUIndexSerializer(HaystackSerializer):
    """
    SKU索引結果數據序列化器
    """
    object = SKUSerializer(read_only=True)

    class Meta:
        index_classes = [SKUIndex]
        fields = ('text', 'object')
說明:
  1. SKUIndexSerializer序列化器中的object欄位是用來向前端返回數據時序列化的欄位。

    Haystack通過Elasticsearch檢索出匹配關鍵詞的搜索結果後,還會在資料庫中取出完整的資料庫模型類對象,放到搜索結果的object屬性中,並將結果通過SKUIndexSerializer序列化器進行序列化。所以我們可以通過聲明搜索結果的object欄位以SKUSerializer序列化的形式進行處理,明確要返回的搜索結果中每個數據對象包含哪些欄位

9)創建視圖

在 應用名/views.py中創建視圖

from drf_haystack.viewsets import HaystackViewSet

class SKUSearchViewSet(HaystackViewSet):
    """
    SKU搜索
    """
    index_models = [SKU]

    serializer_class = SKUIndexSerializer

10)定義路由

通過REST framework的router來定義路由

router = DefaultRouter()
router.register(...)

...

urlpatterns += router.urls

 

bug說明:

如果在配置完haystack並啟動程式後,出現如下異常,是因為drf-haystack還沒有適配最新版本的REST framework框架

可以通過修改REST framework框架代碼,補充_get_count函數定義即可

文件路徑 虛擬環境下的 lib/python3.6/site-packages/rest_framework/pagination.py

def _get_count(queryset):
    """
    Determine an object count, supporting either querysets or regular lists.
    """
    try:
        return queryset.count()
    except (AttributeError, TypeError):
        return len(queryset)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一名3年工作經驗的Java程式員應該具備的技能,這可能是Java程式員們比較關心的內容。我這裡要說明一下,以下列舉的內容不是都要會的東西—-但是如果你掌握得越多,最終能得到的評價、拿到的薪水勢必也越高。 1、基本語法 這包括static、final、transient等關鍵字的作用,foreach循 ...
  • 控制器文件: HomeController.php 基本的控制器+路由 路由參數獲取+路由別名 ...
  • 二叉樹的創建與遍歷 創建 二叉樹的4種遍歷方式: 1,先中心,再左樹,再右樹 2,先左樹,再中心,再右樹 3,先左樹,再右樹,再中心 4,層級遍歷 bintree.h bintree.c bintreemain.c nodequeue.h nodequeue.c ...
  • 在程式運行過程中,如果JVM檢測出一個不可能執行的操作,就會出現運行時錯誤。 在Java中,運行時錯誤會作為異常拋出。異常就是一個對象,表示阻止正常進行程式執行的錯誤或者情況。如果異常沒有被處理,那麼程式將會非正常終止。 異常是從方法拋出的。方法的調用者可以捕獲以及處理該異常。 throw語句的執行 ...
  • 題目描述 Description 小 B 最近迷上了華容道,可是他總是要花很長的時間才能完成一次。於是,他想到用編程來完成華容道:給定一種局面,華容道是否根本就無法完成,如果能完成,最少需要多少時間。 小 B 玩的華容道與經典的華容道游戲略有不同,游戲規則是這樣的: 在一個 n*m 棋盤上有 n*m ...
  • Description 給定一些數,求這些數中兩個數的異或值最大的那個值 Input 多組數據。第一行為數字個數n,1 <= n <= 10 ^ 5。接下來n行每行一個32位有符號非負整數。 Output 任意兩數最大異或值 Sample Input 3 3 7 9 Sample Output 14 ...
  • 我的是win10系統,其他系統也差不多,相信你能找到環境配置頁面。 1. 添加JAVA_HOME,值為jdk的路徑,如C:\Program Files\Java\jdk1.8.0_171,你要換成自己的路徑。那麼 JAVA_HOME是什麼意思,它就是一個變數。跟Java里的變數是一樣的意思,後面用的 ...
  • Scala概述 什麼是Scala Scala是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行於Java平臺(Java虛擬機),並相容現有的Java程式。http://www.scala-lang.org 為什麼要學Scala 1、優雅:這是框架設計師第一 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...