搜索引擎原理 通過搜索引擎進行數據查詢時,搜索引擎並不是直接在資料庫中進行查詢,而是搜索引擎會對資料庫中的數據進行一遍預處理,單獨建立起一份索引結構數據。 我們可以將索引結構數據想象成是字典書籍的索引檢索頁,裡面包含了關鍵詞與詞條的對應關係,並記錄詞條的位置。 我們在通過搜索引擎搜索時,搜索引擎將關 ...
搜索引擎原理
通過搜索引擎進行數據查詢時,搜索引擎並不是直接在資料庫中進行查詢,而是搜索引擎會對資料庫中的數據進行一遍預處理,單獨建立起一份索引結構數據。
我們可以將索引結構數據想象成是字典書籍的索引檢索頁,裡面包含了關鍵詞與詞條的對應關係,並記錄詞條的位置。
我們在通過搜索引擎搜索時,搜索引擎將關鍵字在索引數據中進行快速對比查找,進而找到數據的真實存儲位置。
Elasticsearch
開源的 Elasticsearch 是目前全文搜索引擎的首選。
它可以快速地儲存、搜索和分析海量數據。維基百科、Stack Overflow、Github 都採用它。
Elasticsearch 的底層是開源庫 Lucene。但是,你沒法直接用 Lucene,必須自己寫代碼去調用它的介面。Elastic 是 Lucene 的封裝,提供了 REST API 的操作介面,開箱即用。
Elasticsearch 是用Java實現的。
搜索引擎在對數據構建索引時,需要進行分詞處理。分詞是指將一句話拆解成多個單字或詞,這些字或詞便是這句話的關鍵詞。如
我在廣州。
‘我’、‘在’、‘廣’、‘州’、‘廣州’等都可以是這句話的關鍵詞。
Elasticsearch 不支持對中文進行分詞建立索引,需要配合擴展elasticsearch-analysis-ik來實現中文分詞處理。
使用Docker安裝Elasticsearch及其擴展
獲取鏡像,可以通過網路pull
docker image pull delron/elasticsearch-ik:2.4.6-1.0
修改elasticsearch的配置文件 elasticsearc-2.4.6/config/elasticsearch.yml第54行,更改ip地址為本機ip地址
network.host: 10.211.55.5
創建docker容器運行
docker run -dti --network=host --name=elasticsearch -v /home/python/elasticsearch-2.4.6/config:/usr/share/elasticsearch/config delron/elasticsearch-ik:2.4.6-1.0
使用haystack對接Elasticsearch
Haystack為Django提供了模塊化的搜索。它的特點是統一的,熟悉的API,可以讓你在不修改代碼的情況下使用不同的搜索後端(比如 Solr, Elasticsearch, Whoosh, Xapian 等等)。
我們在django中可以通過使用haystack來調用Elasticsearch搜索引擎。
1)安裝
pip install drf-haystack
pip install elasticsearch==2.4.1
drf-haystack是為了在REST framework中使用haystack而進行的封裝(如果在Django中使用haystack,則安裝django-haystack即可)。
2)註冊應用
INSTALLED_APPS = [ ... 'haystack', ... ]
3)配置
在配置文件中配置haystack使用的搜索引擎後端
# Haystack HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine', 'URL': 'http://10.211.55.5:9200/', # 此處為elasticsearch運行的伺服器ip地址,埠號固定為9200 'INDEX_NAME': 'meiduo', # 指定elasticsearch建立的索引庫的名稱 }, } # 當添加、修改、刪除數據時,自動生成索引 HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'
註意:
HAYSTACK_SIGNAL_PROCESSOR 的配置保證了在Django運行起來後,有新的數據產生時,haystack仍然可以讓Elasticsearch實時生成新數據的索引
4)創建索引類
通過創建索引類,來指明讓搜索引擎對哪些欄位建立索引,也就是可以通過哪些欄位的關鍵字來檢索數據。
在應用中新建search_indexes.py文件,用於存放索引類
from haystack import indexes from .models import SKU class SKUIndex(indexes.SearchIndex, indexes.Indexable): """ SKU索引數據模型類 """ text = indexes.CharField(document=True, use_template=True) def get_model(self): """返回建立索引的模型類""" return SKU def index_queryset(self, using=None): """返回要建立索引的數據查詢集""" return self.get_model().objects.filter(is_launched=True)
在SKUIndex建立的欄位,都可以藉助haystack由elasticsearch搜索引擎查詢。
其中text欄位我們聲明為document=True,表名該欄位是主要進行關鍵字查詢的欄位, 該欄位的索引值可以由多個資料庫模型類欄位組成,具體由哪些模型類欄位組成,我們用use_template=True表示後續通過模板來指明。其他欄位都是通過model_attr選項指明引用資料庫模型類的特定欄位。
在REST framework中,索引類的欄位會作為查詢結果返回數據的來源。
6)在templates目錄中創建text欄位使用的模板文件
具體在templates/search/indexes/goods/sku_text.txt文件中定義
註意:templates/search/indexes/這個路徑是固定的,goods是你使用的應用名,尾碼_text.txt也是固定的,不能隨便寫
{{ object.name }}
{{ object.caption }}
{{ object.id }}
此模板指明當將關鍵詞通過text參數名傳遞時,可以通過sku的name、caption、id來進行關鍵字索引查詢。
7)手動生成初始索引
python manage.py rebuild_index
8)創建序列化器
在 應用名/serializers.py中創建haystack序列化器
from drf_haystack.serializers import HaystackSerializer class SKUSerializer(serializers.ModelSerializer): """ SKU序列化器 """ class Meta: model = SKU fields = ('id', 'name', 'price', 'default_image_url', 'comments') class SKUIndexSerializer(HaystackSerializer): """ SKU索引結果數據序列化器 """ object = SKUSerializer(read_only=True) class Meta: index_classes = [SKUIndex] fields = ('text', 'object')
說明:
-
SKUIndexSerializer序列化器中的object欄位是用來向前端返回數據時序列化的欄位。
Haystack通過Elasticsearch檢索出匹配關鍵詞的搜索結果後,還會在資料庫中取出完整的資料庫模型類對象,放到搜索結果的object屬性中,並將結果通過SKUIndexSerializer序列化器進行序列化。所以我們可以通過聲明搜索結果的object欄位以SKUSerializer序列化的形式進行處理,明確要返回的搜索結果中每個數據對象包含哪些欄位
9)創建視圖
在 應用名/views.py中創建視圖
from drf_haystack.viewsets import HaystackViewSet class SKUSearchViewSet(HaystackViewSet): """ SKU搜索 """ index_models = [SKU] serializer_class = SKUIndexSerializer
10)定義路由
通過REST framework的router來定義路由
router = DefaultRouter()
router.register(...)
...
urlpatterns += router.urls
bug說明:
如果在配置完haystack並啟動程式後,出現如下異常,是因為drf-haystack還沒有適配最新版本的REST framework框架
可以通過修改REST framework框架代碼,補充_get_count
函數定義即可
文件路徑 虛擬環境下的 lib/python3.6/site-packages/rest_framework/pagination.py
def _get_count(queryset): """ Determine an object count, supporting either querysets or regular lists. """ try: return queryset.count() except (AttributeError, TypeError): return len(queryset)