Solr實戰:使用Hue+Solr實現標簽查詢

-Advertisement-

公司最近在研究多條件組合查詢方案，Google的一位技術專家Sam和我們討論了幾個備選方案。 Sam的信：我做了進一步研究，目前有這麼幾種做法： 1）最直接粗暴，只做一個主index，比如按行業＋地區做一個index，這樣來說的話，無論多少個標簽的查詢，直接先用主index做一個篩選，這樣下來可 ...

公司最近在研究多條件組合查詢方案，Google的一位技術專家Sam和我們討論了幾個備選方案。

Sam的信：

我做了進一步研究，目前有這麼幾種做法：

1）最直接粗暴，只做一個主index，比如按行業＋地區做一個index，這樣來說的話，無論多少個標簽的查詢，直接先用主index做一個篩選，這樣下來可能只有少於10w個row，然後對這10w個一個個filtering，這種做法可能能夠滿足大部分需求。當然，這種做法需要用到cache來優化，否則每次都去DB load會影響資料庫的performance。但是初期直接使用資料庫做查詢也不是不可以。（這取決於數據量和查詢的頻率）。

2）使用淘寶的做法，這種做法是自己來做indexing然後merge，是最強大的，但是開發上可能需要時間較長。

3）使用search engine。我昨天碰上airbnb的一個工程師，正好是做搜索的，他們最開始就是使用的方式1），每個search用郵編filter後其實沒有多少房子，所以最簡單，後來改用了search engine能提供更多功能。http://www.solrtutorial.com/solr-in-5-minutes.html 是一個簡單的tutorial，做一個prototype應該很快（一天？）。http://www.solrtutorial.com/solr-query-syntax.html 是solr engine的查詢語法。也能支持範圍查詢（比如，消費能力是150元到300元之間）

當然，從原理上來說，2）和3）其實是一樣的，多個index的數據集做集合運算。不過3）是在2）上麵包了一層。

上面是我的研究結果，供你們參考。

我的回信：

嗨，Sam:

你好！

上封郵件中提到的方案三，收到郵件後我就開始在基於Cloudera的Solr組件做原型驗證。

如下例子中拿call客記錄當源數據：

{"callSeconds":31,"phone":"189xxxxxxxx","callTime":1480398756000,"callerName":"張三","audioPath":"CB01216021100259_5791b1d70cf2c74aa63c0c25_18968168005_20161129135204.3gpp","canAssign":true,"intent":"B類接通無需求","id":"583d17a444f4f4cb88e3c778","callerId":"57a0678b44f468afd0ee0bac","account":"恆大","strId":"583d17a444f4f4cb88e3c778","merchantId":"5791b1d70cf2c7a4aa63c0c25"}

對每個欄位都建索引，用Cloudera的圖形化工具Hue可以連到solr查詢數據和圖表：

Filter過濾以及柱狀圖，折線圖，餅圖等主要展示形式都有，其他的還有幾個功能暫時還沒有用到。

例如查詢某caller客的所有去電的意向分佈情況：

先找出CallerId=57a0678b44f468afd0ee0bac的記錄，再按intent查餅圖。

待解決問題:

1.新增欄位，新增Tag

新增欄位:可以用DynamicFileds在導入數據的時候動態新增索引欄位。

新增Tag:每個標簽作為一個DynamicFileds。

2.歷史數據和Kafka中的實時數據導入Solr

實時數據:

1)Kafka消費+SolrJ寫入。(需要啟額外進程)

2)Kafka+Flume+Morphline。(需定製實現一個Morphline)

方案2)比較好的點是由集群保證魯棒性。

歷史數據：原始數據先導入到HDFS，CDH有工具支持Spark/MapReduce+Morphline導HDFS數據到Solr。

(作者:卡爾 http://www.cnblogs.com/arli)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

iOS提交AppStore後申請加急審核

提交審核後進去下麵鏈接申請加急審核鏈接：https://developer.apple.com/appstore/contact/appreviewteam/index.html 在I would like to選擇加急審核(預設選項) 填寫相關信息最後一項可以不填最後是申請原因跟理由看見別人 ...
Android中使用GridView和ImageViewSwitcher實現電子相冊簡單功能

我們在手機上查看相冊時，首先看到的是網格狀的圖片展示界面，然後我們選擇想要欣賞的照片點擊進入，這樣就可以全屏觀看該照片，並且可以通過左右滑動來切換照片。如下圖的顯示效果：首先我們先羅列一下本次實現所要用的知識點：（1）首頁界面，我們需要可以通過GridView來實現，有關GridView的實現代 ...
GCD理解1（同步-非同步、串列-並行）

1、並行-非同步（ST1與ST2搶占資源） 1-1）、獲取並行（全局）隊列，DISPATCH_QUEUE_PRIORITY_DEFAULT 為預設優先順序。 1-2）、創建非同步事件。 2、串列-同步（順序執行） 2-1）、創建串列隊列，DISPATCH_QUEUE_SERIAL 為串列 2-2）、創 ...
React-Native坑：Invariant Violation:Application 項目名 has not been registered.

前言在學習一門新技術的你也許有跟我一樣的困惑，照著書上或者視頻上的敲了。但是就是有各種問題沒有出來自己想要的結果。我會將自己在這個過程中遇到的坑都記錄下來，不一定全覆蓋，但希望這些文章可以解決你的問題。錯誤提示 Invariant Violation:Applicaction 項目名 has n ...
QQ互聯登錄以及非官方正版應用報100044錯誤

onClickLogin()方法： loginListener介面： updateUserInfo()方法：必須重寫onActivityResult()方法 ...
Android游戲開發實踐(1)之NDK與JNI開發02

Android游戲開發實踐(1)之NDK與JNI開發02 承接上篇 "Android游戲開發實踐(1)之NDK與JNI開發01" 分享完JNI的基礎和簡要開發流程之後，再來分享下在Android環境下的JNI的開發，以及涉及到的NDK相關的操作。當然，本篇仍是以Eclipse作為開發IDE，雖然Go ...
64位系統下應用開發需要註意的那點事

本文設計的知識點已經是老生常談了，寫本文的目的僅僅是作個記錄加深印象(我不會告訴你其實是為了準備某iOS考試可能涉及的問題而複習，哈哈)。 2015年2月1日起，所有新ios應用開發必須支持64位架構，以 ...
[大數據之Yarn]——資源調度淺學

在hadoop生態越來越完善的背景下，集群多用戶租用的場景變得越來越普遍，多用戶任務下的資源調度就顯得十分關鍵了。比如，一個公司擁有一個幾十個節點的hadoop集群，a項目組要進行一個計算任務，b項目組要計算一個任務，集群到底先執行哪個任務？如果你需要提交1000個任務呢？這些任務又是如何執行的？ ...