Elasticsearch——multi termvectors的用法

-Advertisement-

前一篇已經翻譯過termvectors的使用方法了，這對於學習如何使用tf idf來說是很有幫助的了。更多內容參考 "我整理的ELK教程" 什麼是TF IDF? 今天早晨起來，看《ES IN ACTION》的時候，遇到了這個術語，看英文實在不明白，於是百度了一下。看到了阮一峰的一篇關於它的文章，講 ...

前一篇已經翻譯過termvectors的使用方法了，這對於學習如何使用tf-idf來說是很有幫助的了。
更多內容參考我整理的ELK教程

什麼是TF-IDF?

今天早晨起來，看《ES IN ACTION》的時候，遇到了這個術語，看英文實在不明白，於是百度了一下。看到了阮一峰的一篇關於它的文章，講解的十分簡單明瞭，不得不佩服大家的作品，就是不一樣。

其實TF-IDF是一種全文檢索很常見的演算法，即按照關鍵詞以及權重來判斷用戶想要的是哪一個相關的文檔。

比如說，我的名字叫xingoo這句話，想要針對它來做一次全文檢索。

第一步，就是對它進行分詞，可以分為我 的 名字 叫 xingoo其中的是一種停頓詞，很多文檔中都會出現，因此可以忽略。那麼關鍵詞可以變為：名字``xingoo。那麼名字``xingoo這兩個詞出現了多少次，就可以作為TF，即term frequnency，詞頻。

第二步，如果其他的文檔中也會出現名字這種詞，而很少會出現xingoo這種個性話的詞。因此採用一種逆向權重法，即越少出現的詞，越特殊，越能代表這篇文檔的特殊性。這個就叫做IDF，即Inverse Document Frequency，你文檔頻率。

關於他們的計算公式，可以參考阮一峰的文章，很容易理解的！

multi tervectors

再說回官方文檔吧，這次介紹的是一次性返回多個查詢的termvectors，原理和multi get類似，都是使用一個docs的數組，請求多個index,type,id。

curl 'localhost:9200/_mtermvectors' -d '{
   "docs": [
      {
         "_index": "testidx",
         "_type": "test",
         "_id": "2",
         "term_statistics": true
      },
      {
         "_index": "testidx",
         "_type": "test",
         "_id": "1",
         "fields": [
            "text"
         ]
      }
   ]
}'

索引可以放在url上面，這樣docs中就可以忽略，也可以在docs進行覆蓋：

curl 'localhost:9200/testidx/_mtermvectors' -d '{
   "docs": [
      {
         "_type": "test",
         "_id": "2",
         "fields": [
            "text"
         ],
         "term_statistics": true
      },
      {
         "_type": "test",
         "_id": "1"
      }
   ]
}'

type也是如此：

curl 'localhost:9200/testidx/test/_mtermvectors' -d '{
   "docs": [
      {
         "_id": "2",
         "fields": [
            "text"
         ],
         "term_statistics": true
      },
      {
         "_id": "1"
      }
   ]
}'

如果索引和類型都一樣，只有請求的id不一樣，那麼可以把id放在一個數組裡面：

curl 'localhost:9200/testidx/test/_mtermvectors' -d '{
    "ids" : ["1", "2"],
    "parameters": {
        "fields": [
                "text"
        ],
        "term_statistics": true,
        …
    }
}'

由於termvectors支持用戶自己定義的文檔，而不是ES中存儲的。因此可以按照下麵的語法，請求多個自定義的文檔進行解析：

curl 'localhost:9200/_mtermvectors' -d '{
   "docs": [
      {
         "_index": "testidx",
         "_type": "test",
         "doc" : {
            "fullname" : "John Doe",
            "text" : "twitter test test test"
         }
      },
      {
         "_index": "testidx",
         "_type": "test",
         "doc" : {
           "fullname" : "Jane Doe",
           "text" : "Another twitter test ..."
         }
      }
   ]
}'

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C++混合編程之idlcpp教程Lua篇(5)

上一篇在這 C++混合編程之idlcpp教程Lua篇(4) 第一篇在這 C++混合編程之idlcpp教程(一) 與前面的工程相似，工程LuaTutorial3中，同樣加入了三個文件：LuaTutorial3.cpp, Tutorial3.i, tutorial3.lua 。其中LuaTutorial ...
c++異常機制實現原理

今天突然看到一篇文章，講異常機制的實現，所以分享一下：http://baiy.cn/doc/cpp/inside_exception.htm 內容講的很深，但是編譯器的實現是不是真是這樣就不知道了，我也沒驗證過，事實上是要是仔細觀察彙編碼和棧則真有可能能驗證一下。但是憑我的能力不一定能完全驗證出來， ...
搭建自己的PHP框架心得（二）

續言對於本次更新，我想說：本框架由本人挑時間完善，而我還不是PHP大神級的人物，所以框架漏洞難免，求大神們指出。本框架的知識點應用都會寫在博客里，大家有什麼異議的可以一起討論，也希望看博客的也能學習到它們。本次更新，更新了函數規範上的一些問題，如將函數儘量的獨立化，每一個函數儘量只單獨做好一 ...
獲取C++類成員變數的地址偏移

今天有在校學生問怎麼獲取類中的成員變數的地址偏移量，這個應該是很多初學C++的人很好奇的問題。以前我在學校的時候，也有過這種需求。忘了當時是要寫什麼“奇怪的程式”了，反正需要獲取一個類的成員變數的地址偏移量。其實這個問題很簡單，如果你瞭解C++的類對象記憶體分佈的話，這個根本不是問題。我給他舉了個例 ...
java中關於json傳圖片的方法

一般來說傳圖片可以以流的形式來傳輸，即便是用json傳輸，一般也都是傳一個地址，而圖片都存在伺服器上，然後順著地址發送請求下載圖片。但是這次公司的項目中，圖片是存在oracle資料庫中的blob欄位的，並沒有存在伺服器上，也就是說我必須傳圖片本身過去，而json是無法傳輸二進位的文本格式，因此我就 ...
Swoole 初識

官方定義： Swoole：重新定義PHP PHP的非同步、並行、高性能網路通信引擎，使用純C語言編寫，提供了PHP語言的非同步多線程伺服器，非同步TCP/UDP網路客戶端，非同步MySQL，非同步Redis，資料庫連接池，AsyncTask，消息隊列，毫秒定時器，非同步文件讀寫，非同步DNS查詢。 Swoole內 ...
conf/web.xml-------------org.apache.catalina.servlets.DefaultServlet

1.org.apache.catalina.servlets.DefaultServlet 首先所有的請求進入tomcat，都會流經servlet，如果沒有匹配到任何應用指定的servlet，那麼就會流到預設的servlet。預設的servlet是配置在/conf/web.xml裡面的。配置文件中被 ...
Activiti Designer editor features

Activiti的設計編輯器功能 Create Activiti projects and diagrams. 創建Activiti的項目和圖表。 The Activiti Designer creates a .bpmn file when creating a new Activiti diag ...