搜索引擎框架介紹

来源:https://www.cnblogs.com/WUXIAOCHANG/archive/2019/05/13/10855506.html
-Advertisement-
Play Games

一、搜索引擎基礎介紹二、常見搜索引擎框架介紹與比較三、參考文章 一、搜索引擎基礎介紹 1. 什麼是搜索引擎 搜索引擎,通常指的是收集了萬維網上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行索引,建立索引資料庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都 ...


一、搜索引擎基礎介紹
二、常見搜索引擎框架介紹與比較
三、參考文章

 

一、搜索引擎基礎介紹

1. 什麼是搜索引擎

  搜索引擎,通常指的是收集了萬維網上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行索引,建立索引資料庫全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。再經過複雜的演算法進行排序(或者包含商業化的競價排名、商業推廣或者廣告)後,這些結果將按照與搜索關鍵詞的相關度高低(或與相關度毫無關係),依次排列。

2. 傳統的搜索與搜索引擎對比

2.1 傳統做法
(1)文檔中使用系統的Find查找
(2)mysql中使用like模糊查詢

存在問題:
(1)海量數據中不能及時響應,少量數據可以通過傳統的MySql建立索引解決
(2)一些無用詞不能進行過濾,沒法分詞
(3)數據量大的話難以拓展
(4)相同的數據難以進行相似度最高的進行排序

2.2 搜索引擎做法
(1)存儲非結構化的數據
(2)快速檢索和響應我們需要的信息,快-準
(3)進行相關性的排序,過濾等
(4)可以去掉停用詞(沒有特殊含義的詞,比如英文的a,is等,中文: 這,的,是等),框架一般支持可以自定義停用詞

二、常見搜索引擎框架介紹與比較

1. Java 全文搜索引擎框架 Lucene

1.1 簡介
  Lucene的開發語言是Java,也是Java家族中最為出名的一個開源搜索引擎,在Java世界中已經是標準的全文檢索程式,它提供了完整的查詢引擎和索引引擎,沒有中文分詞引擎,需要自己去實現,因此用Lucene去做一個搜素引擎需要自己去架構,另外它不支持實時搜索。但是solr和elasticsearch都是基於Lucene封裝。

1.2 優點
  成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續快速的進步。龐大而活躍的開發社區,大量的開發人員。它只是一個類庫,有足夠的定製和優化空間:經過簡單定製,就可以滿足絕大部分常見的需求;經過優化,可以支持 10億+ 量級的搜索。

1.3 缺點
  需要額外的開發工作。所有的擴展,分散式,可靠性等都需要自己實現;非實時,從建索引到可以搜索中間有一個時間延遲,而當前的“近實時”(Lucene Near Real Time search)搜索方案的可擴展性有待進一步完善.

2. Apache Solr

2.1 簡介
  Solr是一個高性能,採用Java開發,基於Lucene的全文搜索伺服器。文檔通過Http利用XML加到一個搜索集合中。查詢該集合也是通過 http收到一個XML/JSON響應來實現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過索引複製來提高可用性,提 供一套強大Data Schema來定義欄位,類型和設置文本分析,提供基於Web的管理界面等。

2.2 優點
(1)Solr有一個更大、更成熟的用戶、開發和貢獻者社區。
(2)支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟體格式以及 JSON、XML、CSV 等純文本格式。
(3)Solr比較成熟、穩定。
(4)不考慮建索引的同時進行搜索,速度更快。

2.3 缺點
建立索引時,搜索效率下降,實時索引搜索效率不高

3. Elastic Search

3.1 簡介
  ElasticSearch是一個基於Lucene構建的開源,分散式,RESTful搜索引擎。設計用於雲計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。支持通過HTTP使用JSON進行數據索引。

3.2 優點
(1)Elasticsearch是分散式的。不需要其他組件,分發是實時的,被叫做”Push replication”。
(2)Elasticsearch 完全支持 Apache Lucene 的接近實時的搜索。
(3)處理多租戶(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。
(4)Elasticsearch 採用 Gateway 的概念,使得完備份更加簡單。
各節點組成對等的網路結構,某些節點出現故障時會自動分配其他節點代替其進行工作。

3.3 缺點
還不夠自動(不適合當前新的Index Warmup API)

4. Elasticsearch 與 Solr 的比較總結

(1)二者安裝都很簡單
(2)Solr 利用 Zookeeper 進行分散式管理,而 Elasticsearch 自身帶有分散式協調管理功能;
(3)Solr 支持更多格式的數據,而 Elasticsearch 僅支持json文件格式;
(4)Solr 官方提供的功能更多,而 Elasticsearch 本身更註重於核心功能,高級功能多有第三方插件提供;
(5)Solr 在傳統的搜索應用中表現好於 Elasticsearch,但在處理實時搜索應用時效率明顯低於 Elasticsearch。
(6)總之,Solr 是傳統搜索應用的有力解決方案,但 Elasticsearch 更適用於新興的實時搜索應用。

5. Sphinx

5.1 簡介
  Sphinx一個基於SQL的全文檢索引擎,特別為一些腳本語言(PHP,Python,Perl,Ruby)設計搜索API介面。
  Sphinx是一個用C++語言寫的開源搜索引擎,也是現在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優於Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優於Sphinx.其中Sphinx支持實時搜索,使用起來比較簡單方便.
  Sphinx可以非常容易的與SQL資料庫和腳本語言集成。當前系統內置MySQL和PostgreSQL 資料庫數據源的支持,也支持從標準輸入讀取特定格式 的XML數據。通過修改源代碼,用戶可以自行增加新的數據源(例如:其他類型的DBMS 的原生支持)

5.2 特點
(1)高速的建立索引(在當代CPU上,峰值性能可達到10 MB/秒);
(2)高性能的搜索(在2 – 4GB 的文本數據上,平均每次檢索響應時間小於0.1秒);
(3)可處理海量數據(目前已知可以處理超過100 GB的文本數據, 在單一CPU的系統上可 處理100 M 文檔);
(4)提供了優秀的相關度演算法,基於短語相似度和統計(BM25)的複合Ranking方法;
(5)支持分散式搜索;
(6)支持短語搜索
(7)提供文檔摘要生成
(8)可作為MySQL的存儲引擎提供搜索服務;
(9)支持布爾、短語、詞語相似度等多種檢索模式;
(10)文檔支持多個全文檢索欄位(最大不超過32個);
(11)文檔支持多個額外的屬性信息(例如:分組信息,時間戳等);
(12)支持斷詞;

6. Katta

6.1 簡介
  基於 Lucene 的,支持分散式,可擴展,具有容錯功能,準實時的搜索方案。

6.2 優點
  開箱即用,可以與 Hadoop 配合實現分散式。具備擴展和容錯機制。

6.3 缺點
  只是搜索方案,建索引部分還是需要自己實現。在搜索功能上,只實現了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分散式,對於一些複雜的查詢需求,定製的難度會比較大。

三、參考文章

    1. https://blog.csdn.net/belalds/article/details/82686387
    2. https://blog.csdn.net/peng_0129/article/details/86150438
    3. https://www.cnblogs.com/panxuejun/p/5952681.html

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • -->尋找低效的SQL語句 ,下麵的語句主要適用於從視圖v$sqlarea中獲得當前運行下且耗用buffer_gets較多的SQL語句 SELECT executions , disk_reads , buffer_gets , ROUND( ( buffer_gets - disk_reads ) ...
  • Rman常用命令 Preview選項 1) 顯示用於還原system表空間數據文件的備份文件 RMAN> restore datafile 2 preview; 2) 顯示用於還原特定的表空間的備份文件; RMAN> restore tablespace users preview; 3) 顯示執行 ...
  • 文章大綱 一、搜索引擎框架基礎介紹二、ElasticSearch的簡介三、ElasticSearch安裝(Windows版本)四、ElasticSearch操作客戶端工具--Kibana五、ES的常用命令六、Java連接ElasticSearch進行數據操作七、項目源碼與參考資料下載八、參考文章 一 ...
  • 最近Oracle資料庫總是出問題,於是卸載乾凈後重新安裝,安裝過程中遇到了一些問題於是百度解決,在這裡記錄下來方便以後查看。 win10系統安裝oracle11g時遇到INS-13001環境不滿足最低要求 在安裝時點擊setup.exe之後,出現了:[INS-13001]環境不滿足最低要求 這時,打 ...
  • 1.大數據與機器學習的關係: 大數據領域我們做的是數據的存儲和簡單的統計計算,機器學習在大數據的應用是為了發現數據的規律或模型,用機器學習演算法對數據進行計算的到的模型,從而決定我們的預測與決定的因素(比如在大數據用戶畫像項目里,生成的特殊用戶欄位)。 2.大數據在機器學習的應用 目前市場實際開發模式 ...
  • 前言 人生在於折騰系列,網路,多線程等系列博客樓主還在繼續折騰也不會放棄。這是全新的系列,緩存的知識其實並不僅僅在於簡單的增刪改查,我覺得有必要全面深入的學習一波。記錄學習的過程與體悟。 RDB 什麼是RDB 對redis中的數據執行周期性的持久化,通過配置文件中設置檢查間隔時間與備份觸發條件來對數 ...
  • Microsoft SQL Server SQL Server 是Microsoft 公司推出的關係型資料庫管理系統。具有使用方便可伸縮性好與相關軟體集成程度高等優點,可跨越膝上型電腦到運行Microsoft Windows Server的大型多處理器的伺服器等多種平臺使用。 Microsoft S ...
  • 恢復內容開始 Redis集群設計包括2部分:哈希Slot和節點主從,本篇博文通過3張圖來搞明白Redis的集群設計。 節點主從: 主從設計不算什麼新鮮玩意,在資料庫中我們也經常用主從來做讀寫分離,直接上圖: 圖上能看得到的信息: 1, 只有1個Master,可以有N個slaver,而且Slaver也 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...