Solr實戰:使用Hue+Solr實現標簽查詢

来源:http://www.cnblogs.com/arli/archive/2016/12/06/6138755.html
-Advertisement-
Play Games

公司最近在研究多條件組合查詢方案,Google的一位技術專家Sam和我們討論了幾個備選方案。 Sam的信: 我做了進一步研究,目前有這麼幾種做法: 1) 最直接粗暴,只做一個主index,比如按行業+地區做一個index,這樣來說的話,無論多少個標簽的查詢,直接先用主index做一個篩選,這樣下來可 ...


公司最近在研究多條件組合查詢方案,Google的一位技術專家Sam和我們討論了幾個備選方案。

Sam的信:

我做了進一步研究,目前有這麼幾種做法:

1) 最直接粗暴,只做一個主index,比如按行業+地區做一個index,這樣來說的話,無論多少個標簽的查詢,直接先用主index做一個篩選,這樣下來可能只有少於10w個row,然後對這10w個一個個filtering,這種做法可能能夠滿足大部分需求。當然,這種做法需要用到cache來優化,否則每次都去DB load會影響資料庫的performance。但是初期直接使用資料庫做查詢也不是不可以。(這取決於數據量和查詢的頻率)。

2)使用淘寶的做法, 這種做法是自己來做indexing然後merge,是最強大的,但是開發上可能需要時間較長。

3)使用search engine。我昨天碰上airbnb的一個工程師,正好是做搜索的,他們最開始就是使用的方式1),每個search用郵編filter後其實沒有多少房子,所以最簡單,後來改用了search engine能提供更多功能。http://www.solrtutorial.com/solr-in-5-minutes.html 是一個簡單的tutorial,做一個prototype應該很快(一天?)。http://www.solrtutorial.com/solr-query-syntax.html 是solr engine的查詢語法。也能支持 範圍查詢(比如,消費能力是150元到300元之間)

當然,從原理上來說,2)和3)其實是一樣的,多個index的數據集做集合運算。不過3)是在2)上麵包了一層。

上面是我的研究結果,供你們參考。

 

我的回信:

嗨,Sam:

  你好!

  上封郵件中提到的方案三,收到郵件後我就開始在基於Cloudera的Solr組件做原型驗證。

  如下例子中拿call客記錄當源數據:                       

  {"callSeconds":31,"phone":"189xxxxxxxx","callTime":1480398756000,"callerName":"張三","audioPath":"CB01216021100259_5791b1d70cf2c74aa63c0c25_18968168005_20161129135204.3gpp","canAssign":true,"intent":"B類接通無需求","id":"583d17a444f4f4cb88e3c778","callerId":"57a0678b44f468afd0ee0bac","account":"恆大","strId":"583d17a444f4f4cb88e3c778","merchantId":"5791b1d70cf2c7a4aa63c0c25"}

image

對每個欄位都建索引,用Cloudera的圖形化工具Hue可以連到solr查詢數據和圖表:

image

Filter過濾以及柱狀圖,折線圖,餅圖等主要展示形式都有,其他的還有幾個功能暫時還沒有用到。

例如查詢某caller客的所有去電的意向分佈情況:

先找出CallerId=57a0678b44f468afd0ee0bac的記錄,再按intent查餅圖。

 

待解決問題:

1.新增欄位,新增Tag

新增欄位:可以用DynamicFileds在導入數據的時候動態新增索引欄位。

新增Tag:每個標簽作為一個DynamicFileds

 

2.歷史數據和Kafka中的實時數據導入Solr

實時數據:

1)Kafka消費+SolrJ寫入。(需要啟額外進程)

2)Kafka+Flume+Morphline。(需定製實現一個Morphline)

方案2)比較好的點是由集群保證魯棒性。

歷史數據:原始數據先導入到HDFS,CDH有工具支持Spark/MapReduce+Morphline導HDFS數據到Solr。

(作者:卡爾 http://www.cnblogs.com/arli)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 提交審核後進去下麵鏈接申請加急審核鏈接:https://developer.apple.com/appstore/contact/appreviewteam/index.html 在I would like to選擇加急審核(預設選項) 填寫相關信息 最後一項可以不填 最後是申請原因跟理由 看見別人 ...
  • 我們在手機上查看相冊時,首先看到的是網格狀的圖片展示界面,然後我們選擇想要欣賞的照片點擊進入,這樣就可以全屏觀看該照片,並且可以通過左右滑動來切換照片。如下圖的顯示效果: 首先我們先羅列一下本次實現所要用的知識點: (1)首頁界面,我們需要可以通過GridView來實現,有關GridView的實現代 ...
  • 1、並行-非同步(ST1與ST2搶占資源) 1-1)、獲取 並行(全局)隊列 ,DISPATCH_QUEUE_PRIORITY_DEFAULT 為預設優先順序。 1-2)、創建非同步事件。 2、串列-同步(順序執行) 2-1)、創建串列隊列,DISPATCH_QUEUE_SERIAL 為串列 2-2)、創 ...
  • 前言 在學習一門新技術的你也許有跟我一樣的困惑,照著書上或者視頻上的敲了。但是就是有各種問題沒有出來自己想要的結果。我會將自己在這個過程中遇到的坑都記錄下來,不一定全覆蓋,但希望這些文章可以解決你的問題。 錯誤提示 Invariant Violation:Applicaction 項目名 has n ...
  • onClickLogin()方法: loginListener介面: updateUserInfo()方法: 必須重寫onActivityResult()方法 ...
  • Android游戲開發實踐(1)之NDK與JNI開發02 承接上篇 "Android游戲開發實踐(1)之NDK與JNI開發01" 分享完JNI的基礎和簡要開發流程之後,再來分享下在Android環境下的JNI的開發,以及涉及到的NDK相關的操作。當然,本篇仍是以Eclipse作為開發IDE,雖然Go ...
  •     本文設計的知識點已經是老生常談了,寫本文的目的僅僅是作個記錄加深印象(我不會告訴你其實是為了準備某iOS考試可能涉及的問題而複習,哈哈)。     2015年2月1日起,所有新ios應用開發必須支持64位架構,以 ...
  • 在hadoop生態越來越完善的背景下,集群多用戶租用的場景變得越來越普遍,多用戶任務下的資源調度就顯得十分關鍵了。比如,一個公司擁有一個幾十個節點的hadoop集群,a項目組要進行一個計算任務,b項目組要計算一個任務,集群到底先執行哪個任務?如果你需要提交1000個任務呢?這些任務又是如何執行的? ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...