Elasticsearch是一個基於Lucene的搜索引擎。它提供了一個分散式多用戶能力的全文搜索引擎,基於RESTful 的API介面。Elasticsearch是用Java語言開發的,並作為Apache許可條款下的開放源碼發佈,是非常流行的企業級搜索引擎。 ...
Elasticsearch
Elasticsearch是一個基於Lucene的搜索引擎。它提供了一個分散式多用戶能力的全文搜索引擎,基於RESTful 的API介面。Elasticsearch是用Java語言開發的,並作為Apache許可條款下的開放源碼發佈,是非常流行的企業級搜索引擎。官方支持的客戶端語言包括Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby等。根據DB-Engines的排名顯示,Elasticsearch是最受歡迎的企業搜索引擎,其次是Apache Solr,而Solr也是基於Lucene開發的。
Elasticsearch的安裝方式有許多,官方也特別希望能夠在公有雲上部署。本文選擇最簡單的方式,直接在自己掌握的主機(ip:172.29.30.155)上安裝。其安裝過程如下所述:
# 這個安裝過程也有可能非常慢。 wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo gpg --dearmor -o /usr/share/keyrings/elasticsearch-keyring.gpg sudo apt-get install apt-transport-https echo "deb [signed-by=/usr/share/keyrings/elasticsearch-keyring.gpg] https://artifacts.elastic.co/packages/8.x/apt stable main" | sudo tee /etc/apt/sources.list.d/elastic-8.x.list sudo apt-get update && sudo apt-get install -y elasticsearch
另一個簡單的辦法就是直接下載安裝包。從官網上下載:
# 在ubuntu bionic目標機的終端下 wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.3.2-amd64.deb sudo dpkg -i elasticsearch-8.3.2-amd64.deb
這種方式的好處是可以複製deb文件以多個電腦上,從而節省下載時間。需要安裝的目標電腦越多,這種方式越合算。
在ubuntu bionic下,可以使用systemd對其進行管理。相關命令如下:
sudo /bin/systemctl daemon-reload # 自動啟動 sudo /bin/systemctl enable elasticsearch # 啟動 sudo systemctl start elasticsearch # 查看狀態 sudo systemctl status elasticsearch # 如果出現錯誤,可以查看日誌。 journalctl -f journalctl -u elasticsearch # 停止 sudo systemctl stop elasticsearch # 重置口令,人工指定 /usr/share/elasticsearch/bin/elasticsearch-reset-password -u elastic -i # 重置口令,自動生成 /usr/share/elasticsearch/bin/elasticsearch-reset-password -u elastic # 測試之 curl --cacert /etc/elasticsearch/certs/http_ca.crt -u elastic https://localhost:9200 curl --cacert /etc/elasticsearch/certs/http_ca.crt -u elastic https://172.29.30.155:9200
獲得的響應類似下列信息:
{ "name" : "dbservers", "cluster_name" : "elasticsearch", "cluster_uuid" : "LFs6cpSHTSqLqbx6lRgkvw", "version" : { "number" : "8.3.2", "build_type" : "deb", "build_hash" : "8b0b1f23fbebecc3c88e4464319dea8989f374fd", "build_date" : "2022-07-06T15:15:15.901688194Z", "build_snapshot" : false, "lucene_version" : "9.2.0", "minimum_wire_compatibility_version" : "7.17.0", "minimum_index_compatibility_version" : "7.0.0" }, "tagline" : "You Know, for Search" }
Elasticsearch的功能非常複雜,需要下功夫學習,本文只從python的角度來使用這個工具。官方推薦的模塊安裝如下:
pip install elasticsearch # 為了能夠完成安全驗證,需要下載相關的證書到本地 scp [email protected]:/etc/elasticsearch/certs/http_ca.crt .
完成後,以下代碼簡單示例瞭如何插入記錄:
from elasticsearch import Elasticsearch from datetime import datetime serverip = "172.29.30.155" cafile = r"d:\http_ca.crt" ELASTIC_PASSWORD = "88488848" indexname = "poetry" index = 0 def connect(): client = Elasticsearch( f"https://{serverip}:9200", ca_certs=cafile, basic_auth=("elastic", ELASTIC_PASSWORD)) return client def docgen(author, content): doc = {'author': author, 'text': content, 'timestamp': datetime.now(), } return doc def insert(con, id, doc): resp = con.index(index=indexname, id=id, document=doc) return resp['result'] def getbyindex(con, id): resp = con.get(index=indexname, id=id) return resp['_source'] def list(con): resp = con.search(index=indexname, query={"match_all": {}}) print("Got %d Hits:" % resp['hits']['total']['value']) for hit in resp['hits']['hits']: print("%(timestamp)s %(author)s: %(text)s" % hit["_source"]) def search(con, str): resp = con.search(index=indexname, query={"match": {"text": str}}) print("Got %d Hits:" % resp['hits']['total']['value']) for hit in resp['hits']['hits']: print("%(timestamp)s %(author)s: %(text)s" % hit["_source"]) # 連接 con = connect() # 插入記錄 index += 1 doc = docgen("李白", "天生我才必有用") print(insert(con, index, doc)) index += 1 doc = docgen("杜甫", "功蓋三分國,名成八陣圖,江流石不轉,遺恨失吞吳") print(insert(con, index, doc)) # 準確獲得記錄 print(getbyindex(con, 1)) # 列出所有記錄 list(con) # 使用搜索功能,找到相關記錄 search(con, "天生")
上述代碼只是簡單地插入了2條記錄。真正要發揮作用搜索引擎的能力,必須要將大量的信息導入,同時也要建設集群系統,這部分的內容請閱讀官網相關資料,本文不再重覆。