es簡單打造站內搜索

来源:https://www.cnblogs.com/ZyCoder/archive/2018/10/27/9863786.html
-Advertisement-
Play Games

最近挺忙的,在外出差,又同時乾兩個項目。白天一個晚上一個,特別是白天做的項目,馬上就要上線了,在客戶這裡 三天兩頭開會,問題很多真的很想好好靜下來懟代碼,半夜做夢都能fix bugs~ 和客戶交流真的是門技術,一不小心你就會掉坑裡,慢慢來吧~ 站內搜素其實也是老生常談,估計很多程式員門都做過或者接觸 ...


最近挺忙的,在外出差,又同時乾兩個項目。白天一個晚上一個,特別是白天做的項目,馬上就要上線了,在客戶這裡 三天兩頭開會,問題很多真的很想好好靜下來懟代碼,半夜做夢都能fix bugs~ 和客戶交流真的是門技術,一不小心你就會掉坑裡,慢慢來吧~ 

站內搜素其實也是老生常談,估計很多程式員門都做過或者接觸過,記得大三那會 那是比較常見的解決方案就是lucene.net 和盤古分詞,後來又用jieba分詞,

首先就是和資料庫同步,我們把數據扔給lucene.net  ,lucene.net 拿到數據 進行分詞,然後保存在索引庫中,當用戶搜索的時候,就從索引庫中進行搜索。lucene.net 對中文分詞不是太優化,所以常用的就是盤古分詞  庖丁解牛  jieba分詞,這種方式適合個人站點 數據量不是太大的情況下,目前很少有採用這種解決方案的,看官們感興趣的可以百度瞭解一波,實現起來也不難。 

前端時間elastc上市,市值50億美金,剛開始我還嚇一大跳~ 接觸es是去年, 項目做日誌統計使用exceptionless,所以也就初步瞭解了elasticsearch  也逐步瞭解logstash kibana   速度是真的快,弔打sqlserver啊! 哈哈 畢竟不是一系列的東西=

今天簡單實現的站內搜索採用的就是 elasticsearch,數據源就是這段時間每天爬取博客園獲取到的將近6000篇文章,放到sqlserver了,後續會共用

起初 想要搞sqlserver 和 es的數據同步,我寫的這個服務每小時就會爬取博客園一次 獲取最新50條數據,重覆的就不算了。數據同步可以採用logstash,首先就是全量同步,再次就是增量同步,可能是因為版本原因吧,都是採用的最新版本,採用logstash進行數據同步 老是失敗,有待探索,索性就用ef 先做個全量同步,再靠這個定時服務做以後的增量,數據本身就是經過去重處理的,況且也不存在修改 刪除的情況

 

首先就是配置java環境變數  然後部署 elk 官網地址是 : https://www.elastic.co/cn/

下載好三件套之後 我們可以把es部署成windows服務  在bin目錄下 運行elasticsearch-service.bat

服務開啟後,es預設http地址是 http://localhost:9200/

 

es啟動成功後  啟動kibana 服務  同樣也是在bin目錄下執行kibana.bat,kibana對es來說 真的是一個神器,

可以在上面操作dsl  做數據分析等待  預設地址是http://localhost:5601

 

然後就是安裝ik了,ik是中文分詞插件,github地址是:https://github.com/medcl/elasticsearch-analysis-ik

從releases下載 我下載的最新版 6.4.2 下載後複製到es的plugins 目錄下,解壓就行了。然後去kibana檢查是否安裝成功,具體操作見github 

ik分詞策略有ik_max_word 和 ik_smart   ik_max_word會將文本做最細粒度的拆分,例如「中華人民共和國國歌」會被拆分為「中華人民共和國、中華人民、中華、華人、人民共和國、人民、人、民、共和國、共和、和、國國、國歌」,會窮盡各種可能的組合;

ik_smart會將文本做最粗粒度的拆分,例如「中華人民共和國國歌」會被拆分為「中華人民共和國、國歌」;

 

ik安裝後之後 就是在kibana創建index  和mapping了

es和我們常用的sqlserver等關係型資料庫對比如下:

DB:DataBases=>Tables=>Rows=>Columns

ES:Indices=>Types=>Documents=>Fields

創建Index

在kibana Dev Tools 操作dsl    

 

PUT /cnblogdb  (註意 必須為小寫)
POST
/cnblogdb/articles/_mapping { "properties": { "content": { "type": "text", "analyzer": "ik_smart", "search_analyzer": "ik_smart" }, "title":{ "type":"text", "analyzer": "ik_smart", "search_analyzer": "ik_smart" }, "summary":{ "type":"text", "analyzer": "ik_smart", "search_analyzer": "ik_smart" }, "author":{ "type":"text", "analyzer": "ik_smart", "search_analyzer": "ik_smart", "fielddata": true, "fields": { "raw":{ "type":"keyword" } } } } }

 

可以看到 在_mapping 的時候 author欄位 加了fielddata 屬性  和fields   

關於fielddata 詳細介紹可移步 https://www.elastic.co/guide/cn/elasticsearch/guide/current/preload-fielddata.html

在這裡設置fielddata為true是因為 後續的根據author欄位進行聚合檢索 es在預設情況下對text類型的欄位是不可聚合的

 

設置 fields :{raw:{type:keyword }} 是因為我們在對author欄位進行聚合的時候,因為上面的ik分詞策略,所以我們聚合到的結果是分詞後的結果,

比如author為 張教主  聚合結果就成了張,教主 這樣的結果,設置他就類似有了個別名。

 

 

c#中操作es 使用Nest 

github地址是 https://github.com/elastic/elasticsearch-net

 數據源地址是:  http://zycoder.oss-cn-qingdao.aliyuncs.com/ali/blog.sql

這個數據是sqlserver的腳本數據 整到es也是很簡單的

創建esclient   es多見於分散式  多節點 我們搞著學習就不必要了

 

var node = new Uri("http://localshot:9200");
var settings = new ConnectionSettings(node);
var client = new ElasticClient(settings);

看項目 界面截圖 就是一個簡單的多欄位匹配檢索 和 聚合 

創建Model 此model是與type相對應的

[ElasticsearchType(Name ="articles")]  
    public partial class Articles
    {
        public int Id { get; set; }

        [Text(Analyzer = "ik_smart")]  
        public string Title { get; set; }

        public string ItemUrl { get; set; }
        [Text(Analyzer = "ik_smart")]
        public string Sumary { get; set; }
        [Text(Analyzer = "ik_smart", Fielddata = true)]
        public string Author { get; set; }

        public string PubDate { get; set; }
        [Text(Analyzer = "ik_smart")]
        public string Content { get; set; }
    }

首先就是首頁的高亮檢索了  代碼如下:

       public ActionResult GetArticles()
        {
            Stopwatch sw = new Stopwatch();
            sw.Start();
            string keyWords = Request.Params["keyWords"];
            string author = Request.Params["author"];
            int.TryParse(Request.Params["page"], out int page);
            page = page <= 1 ? 1 : page;
            int start = (page - 1) * 10;

            var query = new SearchDescriptor<Articles>();
            if (!string.IsNullOrWhiteSpace(author))
            {
                query= query.Query(q => q.Match(m => m.Field("author").Query(author)));
            }
            else
            {
                query = query.Query(q => q.MultiMatch(m => m.Fields(
                        fd => fd.Fields("title", "sumary", "author")
                        ).Query(keyWords)
                        ));
            }
            query = query.Highlight(h => h
               .PreTags(@"<span style='color:red'>")
                  .PostTags("</span>")
                  .Fields(
                      f => f.Field(obj => obj.Title),
                      f => f.Field(obj => obj.Sumary),
                      f => f.Field(obj => obj.Author)
                   )
            ).Sort(c => c.Field("_score", SortOrder.Descending).Field("id", SortOrder.Descending))
                         .From(start).Size(10);
var response = _client.Search<Articles>(query); var list = response.Hits.Select(c => new Articles { Id = c.Source.Id, Title = c.Highlights == null ? c.Source.Title : c.Highlights.Keys.Contains("title") ? string.Join("", c.Highlights["title"].Highlights) : c.Source.Title, Author = c.Highlights == null ? c.Source.Author : c.Highlights.Keys.Contains("author") ? string.Join("", c.Highlights["author"].Highlights) : c.Source.Author, Sumary = c.Highlights == null ? c.Source.Sumary : c.Highlights.Keys.Contains("sumary") ? string.Join("", c.Highlights["sumary"].Highlights) : c.Source.Sumary, PubDate = c.Source.PubDate }); sw.Stop(); ViewBag.Times = sw.ElapsedMilliseconds; ViewBag.PageIndx = page; ViewData["list"] = list.ToList(); return View(); }

Sort(c => c.Field("_score", SortOrder.Descending).Field("id", SortOrder.Descending)) 這裡我們可以多留意一下,在匹配搜索的時候,
預設排序是根據匹配得分進行排序的,所以我們想要獲取最新最匹配的數據,首先就是根據匹配得分進行排序 在根據時間

面板結果如下:

 

Nest進行搜索 語法不做過多討論 谷歌 百度

然後就是根據author進行聚合 類似資料庫語法就是 select author,count(author) from article group by author 

dsl 結果如下所示:

size就是最靠前的10位了  小魚兒同志貢獻最多  我所提供的數據源里有56篇文章~

代碼如下:

     public ActionResult HomeRight()
        {
            var response= _client.Search<Articles>(s => s.Aggregations(aggs => aggs.Terms(
                  "aggs", t => t.Field("author.raw").Size(20).CollectMode(TermsAggregationCollectMode.BreadthFirst)
                  )).Size(0));
            var buckets= response.Aggregations.Terms("aggs").Buckets;
            var authorGroups= buckets.Select(q => new AuthorGroup
            {
                AuthorName = q.Key,
                Count = (int)q.DocCount
            }).ToList();
            ViewData["list"] = authorGroups;
            return View();
        }

在c#中 我們就是把dsl 改為lambda去查詢 

在聚合的時候 最後 Size(0); 不是取0條數據 而是在聚合搜索的時候 預設也會獲取documents 預設為10條 但是我們只是聚合併不需要搜索文檔 所以就設置為0 

也減小了記憶體開銷,增加查詢速度。

更多資料就是看官方文檔了,提供的很全面。

Share End!

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • VC2010和VC2017的標準庫中,string(或wstring)的數據結構和操作有所不同,所以在將這兩種數據作為參數在兩個系統產生的函數中傳遞時會出現亂碼(string和wstring在2017下必須是引用傳遞) ...
  • 作者:依樂祝 原文地址:https://www.cnblogs.com/yilezhu/p/9866068.html 在本文中,我將解釋命令模式,以及如何利用基於命令模式的第三方庫來實現它們,以及如何在ASP.NET Core中使用它來解決我們的問題並使代碼簡潔。因此,我們將通過下麵的主題來進行相關 ...
  • 基礎環境配置 功能變數名稱和伺服器請先自行購買 基於 雲伺服器ECS 創建一個應用實例,選擇系統鏡像為 Ubuntu 16.04 ,在本機通過 SSH 進行遠程連接,併進行相關配置 安裝並配置 Nginx 配置 default 文件,在文件末尾配置如下節點信息 檢測配置並更新 安裝 DotNetCore 請 ...
  • 這篇我們學習水晶報表,報表呈現的數據源是IEnumerable<T>。比如下麵的數據: using System; using System.Collections.Generic; using System.Linq; using System.Web; using Insus.NET.Model ...
  • 在ASP.NET MVC項目開發,還是需要創建一些Web Page來實現一些功能,如呈現報表等... 但是一旦項目的.ASPX網頁太多了,其中的程式代碼也會有代碼冗餘,出現這些情況,我們得需要對這些代碼進行重構。 比如,項目中需要呈現很多報表,就會創建許多.aspx網頁: 所有呈現報表的.aspx. ...
  • 在開始之前首先解釋一下我認為的依賴註入和控制反轉的意思。(新手理解,哪裡說得不正確還請指正和見諒) 控制反轉:我們向IOC容器發出獲取一個對象實例的一個請求,IOC容器便把這個對象實例“註入”到我們的手中,在這個時候我們不是一個創建者,我們是以一個請求者的身份去請求容器給我們這個對象實例。我們所有的 ...
  • 學習ASP.NET MVC,如果你是開發ASP.NET MVC項目的,也許你去為項目添加前ASP.NET項目的APP_Code目錄,在這裡創建與添加的Class類,也許你無法在MVC項目所引用。 那這樣說,是不是一沒有作用了呢?非也。 從下麵一步一步來學習。 創建一個model,名稱:Machine ...
  • 潘正磊在上海的Tech Summit 2018 大會上給我們的.NET Core以及開源情況帶來了最新信息。 .Net Core 開源後取得了更加快速的發展,目前越活躍用戶高達400萬人,每月新增開發者45萬,在 GitHub 上的月度增長達到15%。目前有來自超過3,700家企業的1.9萬開發者在 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...