mysql百萬級全文索引及match快速查找

-Advertisement-

mysql百萬級以上搜索如果用LIKE %搜索詞%這種，肯定是非常慢的，換種方法，建立索引，如果用match() againtst()這種方法，那就非常快了！ ...

建立全文索引的表的存儲引擎類型必須為MyISAM

問題是match against對中文模糊搜索支持不是太好

新建一個utf8 MyISAM類型的表並建立一個全文索引：

CREATE TABLE articles (
id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
title VARCHAR(200),
body TEXT,
FULLTEXT (title,body)
) ENGINE=MyISAM DEFAULT >

其中FULLTEXT(title, body) 給title和body這兩列建立全文索引，之後檢索的時候註意必須同時指定這兩列。

給這個表添加點測試數據

INSERT INTO articles (title,body) VALUES
('MySQL Tutorial','DBMS stands for DataBase ...'),
('How To Use MySQL Well','After you went through a ...'),
('Optimizing MySQL','In this tutorial we will show ...'),
('1001 MySQL Tricks','1. Never run mysqld as root. 2. ...'),
('MySQL vs. YourSQL','In the following database comparison ...'),
('MySQL Security','When configured properly, MySQL ...');

3. 全文檢索測試

SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('database');

註意 MATCH (title,body) 裡面的值必須是前面建立全文索引的兩個欄位不能少。

mysql 預設支持全文檢索的字元長度是4，可以用SHOW VARIABLES LIKE 'ft_min_word_len' 來查看指定的字元長度，也可以在mysql配置文件my.ini 更改最小字元長度，方法是在my.ini 增加一行比如：ft_min_word_len = 2，改完後重啟mysql即可。

另外，MySQL還會計算一個詞的權值，以決定是否出現在結果集中，具體如下：

mysql在集和查詢中的對每個合適的詞都會先計算它們的權重，一個出現在多個文檔中的詞將有較低的權重(可能甚至有一個零權重)，因為在這個特定的集中，它有較低的語義值。否則，如果詞是較少的，它將得到一個較高的權重，mysql預設的閥值是50%，上面‘you’在每個文檔都出現，因此是100%，只有低於50%的才會出現在結果集中。

全文檢索語法

SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('+apple -banana' IN BOOLEAN MODE); + 表示AND，即必須包含。- 表示NOT，即不包含。

SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('apple banana' IN BOOLEAN MODE); apple和banana之間是空格，空格表示OR，即至少包含apple、banana中的一個。

SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('+apple banana' IN BOOLEAN MODE); 必須包含apple，但是如果同時也包含banana則會獲得更高的權重。

SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('+apple ~banana' IN BOOLEAN MODE); ~ 是我們熟悉的異或運算符。返回的記錄必須包含apple，但是如果同時也包含banana會降低權重。但是它沒有 +apple -banana 嚴格，因為後者如果包含banana壓根就不返回。

SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('+apple +(>banana <orange)' IN BOOLEAN MODE); 返回同時包含apple和banana或者同時包含apple和orange的記錄。但是同時包含apple和banana的記錄的權重高於同時包含apple和orange的記錄

最後如果要模糊搜索只要在在搜索的詞後面加上*號就可以，如

"SELECT * FROM table_name WHERE MATCH(column) AGAINST('search*' IN BOOLEAN MODE)"

經測試，非常快速！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Win7/Win8.1升級Win10後屏幕一直閃爍怎麼辦？

有些用戶在把Win7/Win8.1升級到Win10正式版後，發現屏幕一直不停閃爍，以至於無法正常使用。出現這種情況的原因可能有很多，微軟社區的論壇審閱人Alex_Shen給出了一種解決方案：進入安全模式停止兩個服務。好系統官網將其提供的方法進行整理後供大家參考。工具/原料好系統重裝助手具體操作 ...
MySQL 資料庫概論與MySQL 安裝

本文來自：https://www.breakyizhan.com/sql/5648.html1. 儲存與管理資料儲存與管理資料一直是資訊應用上最基本、也是最常見的技術。在還沒有使用電腦來管理你的資料時，你可能會使用這樣的方式來保存世界上所有的國家資料：這樣的作法在生活中是很常見的，例如親友的通訊錄，... ...
MySQL壓縮包zip安裝

看了網上好多種教程，自己嘗試失敗了好多次，最後總算弄好了，具體如下 zip下載地址：https://dev.mysql.com/downloads/mysql/ 之後點擊No thanks, just start my download. 下載之後解壓文件然後配置環境變數，這樣可以直接在cmd中輸 ...
[原創]分散式系統之緩存的微觀應用經驗談（二）【主從和主備高可用篇】

第二篇這裡嘗試聊聊緩存的主從（Master-Slave），以及相關的高可用實現（High-Availability）（具體應用依然以Redis 舉例） 1.1 關於主從分離的取捨觀點是否採用主從分離（這裡特指讀寫分離），個人目前的觀點是，它在很多場景里，並不是一個很好的方案。我更想說的是，甚至任... ...
Linux中偽分佈的搭建

一偽分佈模式特點：在單機上，模擬一個分散式的環境，具備Hadoop的所有功能 HDFS：NameNode + DataNode + SecondaryNameNode Yarn：ResourceManager + NodeManager （*）hadoop-env.sh JAVA_HOME /ro ...
Mybatis foreach標簽含義

背景考慮以下場景： InfoTable（信息表）: | Name | Gender | Age | Score | | | | | | | 張三 | 男 | 21 | 90 | | 李四 | 女 | 20 | 87 | | 王五 | 男 | 22 | 92 | | 趙六 | 女 | 19 | 94 ...
MongoDB添加secondary節點的兩種方法

前段時間維護的一個事業群的其中一條業務線的開發找到運維，提出來了一個MongoDB的優化問題，那段時間MongoDB正在從op管理移交給db進行維護，整個部門都對MongoDB的運維經驗缺乏，MongoDB的優化更是一個未知的挑戰。當op找到我，核心系統的公共服務平臺用來進行簡訊服務的MongoDB ...
mysql 開發進階篇系列 47 xtrabackup (完全備份恢復，恢復後重啟失敗總結)

一. 完全備份恢復說明 xtrabackup二進位文件有一個xtrabackup --copy-back選項，它將備份複製到伺服器的datadir目錄下。下麵是通過 --target-dir 指定完全備份文件的目錄，還原到datadir目錄下。可以使用xtrabackup --move-back選 ...