Solr實戰:使用Hue+Solr實現標簽查詢

来源:http://www.cnblogs.com/arli/archive/2016/12/06/6138755.html
-Advertisement-
Play Games

公司最近在研究多條件組合查詢方案,Google的一位技術專家Sam和我們討論了幾個備選方案。 Sam的信: 我做了進一步研究,目前有這麼幾種做法: 1) 最直接粗暴,只做一個主index,比如按行業+地區做一個index,這樣來說的話,無論多少個標簽的查詢,直接先用主index做一個篩選,這樣下來可 ...


公司最近在研究多條件組合查詢方案,Google的一位技術專家Sam和我們討論了幾個備選方案。

Sam的信:

我做了進一步研究,目前有這麼幾種做法:

1) 最直接粗暴,只做一個主index,比如按行業+地區做一個index,這樣來說的話,無論多少個標簽的查詢,直接先用主index做一個篩選,這樣下來可能只有少於10w個row,然後對這10w個一個個filtering,這種做法可能能夠滿足大部分需求。當然,這種做法需要用到cache來優化,否則每次都去DB load會影響資料庫的performance。但是初期直接使用資料庫做查詢也不是不可以。(這取決於數據量和查詢的頻率)。

2)使用淘寶的做法, 這種做法是自己來做indexing然後merge,是最強大的,但是開發上可能需要時間較長。

3)使用search engine。我昨天碰上airbnb的一個工程師,正好是做搜索的,他們最開始就是使用的方式1),每個search用郵編filter後其實沒有多少房子,所以最簡單,後來改用了search engine能提供更多功能。http://www.solrtutorial.com/solr-in-5-minutes.html 是一個簡單的tutorial,做一個prototype應該很快(一天?)。http://www.solrtutorial.com/solr-query-syntax.html 是solr engine的查詢語法。也能支持 範圍查詢(比如,消費能力是150元到300元之間)

當然,從原理上來說,2)和3)其實是一樣的,多個index的數據集做集合運算。不過3)是在2)上麵包了一層。

上面是我的研究結果,供你們參考。

 

我的回信:

嗨,Sam:

  你好!

  上封郵件中提到的方案三,收到郵件後我就開始在基於Cloudera的Solr組件做原型驗證。

  如下例子中拿call客記錄當源數據:                       

  {"callSeconds":31,"phone":"189xxxxxxxx","callTime":1480398756000,"callerName":"張三","audioPath":"CB01216021100259_5791b1d70cf2c74aa63c0c25_18968168005_20161129135204.3gpp","canAssign":true,"intent":"B類接通無需求","id":"583d17a444f4f4cb88e3c778","callerId":"57a0678b44f468afd0ee0bac","account":"恆大","strId":"583d17a444f4f4cb88e3c778","merchantId":"5791b1d70cf2c7a4aa63c0c25"}

image

對每個欄位都建索引,用Cloudera的圖形化工具Hue可以連到solr查詢數據和圖表:

image

Filter過濾以及柱狀圖,折線圖,餅圖等主要展示形式都有,其他的還有幾個功能暫時還沒有用到。

例如查詢某caller客的所有去電的意向分佈情況:

先找出CallerId=57a0678b44f468afd0ee0bac的記錄,再按intent查餅圖。

 

待解決問題:

1.新增欄位,新增Tag

新增欄位:可以用DynamicFileds在導入數據的時候動態新增索引欄位。

新增Tag:每個標簽作為一個DynamicFileds

 

2.歷史數據和Kafka中的實時數據導入Solr

實時數據:

1)Kafka消費+SolrJ寫入。(需要啟額外進程)

2)Kafka+Flume+Morphline。(需定製實現一個Morphline)

方案2)比較好的點是由集群保證魯棒性。

歷史數據:原始數據先導入到HDFS,CDH有工具支持Spark/MapReduce+Morphline導HDFS數據到Solr。

(作者:卡爾 http://www.cnblogs.com/arli)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 提交審核後進去下麵鏈接申請加急審核鏈接:https://developer.apple.com/appstore/contact/appreviewteam/index.html 在I would like to選擇加急審核(預設選項) 填寫相關信息 最後一項可以不填 最後是申請原因跟理由 看見別人 ...
  • 我們在手機上查看相冊時,首先看到的是網格狀的圖片展示界面,然後我們選擇想要欣賞的照片點擊進入,這樣就可以全屏觀看該照片,並且可以通過左右滑動來切換照片。如下圖的顯示效果: 首先我們先羅列一下本次實現所要用的知識點: (1)首頁界面,我們需要可以通過GridView來實現,有關GridView的實現代 ...
  • 1、並行-非同步(ST1與ST2搶占資源) 1-1)、獲取 並行(全局)隊列 ,DISPATCH_QUEUE_PRIORITY_DEFAULT 為預設優先順序。 1-2)、創建非同步事件。 2、串列-同步(順序執行) 2-1)、創建串列隊列,DISPATCH_QUEUE_SERIAL 為串列 2-2)、創 ...
  • 前言 在學習一門新技術的你也許有跟我一樣的困惑,照著書上或者視頻上的敲了。但是就是有各種問題沒有出來自己想要的結果。我會將自己在這個過程中遇到的坑都記錄下來,不一定全覆蓋,但希望這些文章可以解決你的問題。 錯誤提示 Invariant Violation:Applicaction 項目名 has n ...
  • onClickLogin()方法: loginListener介面: updateUserInfo()方法: 必須重寫onActivityResult()方法 ...
  • Android游戲開發實踐(1)之NDK與JNI開發02 承接上篇 "Android游戲開發實踐(1)之NDK與JNI開發01" 分享完JNI的基礎和簡要開發流程之後,再來分享下在Android環境下的JNI的開發,以及涉及到的NDK相關的操作。當然,本篇仍是以Eclipse作為開發IDE,雖然Go ...
  •     本文設計的知識點已經是老生常談了,寫本文的目的僅僅是作個記錄加深印象(我不會告訴你其實是為了準備某iOS考試可能涉及的問題而複習,哈哈)。     2015年2月1日起,所有新ios應用開發必須支持64位架構,以 ...
  • 在hadoop生態越來越完善的背景下,集群多用戶租用的場景變得越來越普遍,多用戶任務下的資源調度就顯得十分關鍵了。比如,一個公司擁有一個幾十個節點的hadoop集群,a項目組要進行一個計算任務,b項目組要計算一個任務,集群到底先執行哪個任務?如果你需要提交1000個任務呢?這些任務又是如何執行的? ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...