sql server全文索引使用中的小坑

来源:http://www.cnblogs.com/liwei225/archive/2016/01/05/5101716.html
-Advertisement-
Play Games

一、業務場景我們在實際生產環境中遇到了這樣一種需求,即需要檢索一個父子關係的子樹數據估計大家也遇到過類似的場景,最典型的就是省市數據,其中path欄位是按層級關係生成的行政區路徑:如果我們已知某市名,想查出同級和高一級的省名,如保定市同級和上級河北省,那麼我們有什麼實現方式呢給大家10秒鐘,快速搶答...


一、業務場景

我們在實際生產環境中遇到了這樣一種需求,即需要檢索一個父子關係的子樹數據

估計大家也遇到過類似的場景,最典型的就是省市數據,其中path欄位是按層級關係生成的行政區路徑:

image

如果我們已知某市名,想查出同級和高一級的省名,如保定市同級和上級河北省,那麼我們有什麼實現方式呢

給大家10秒鐘,快速搶答

.

.

.

時間到

大概有以下幾種方法:

a.2008中新添加的層級數據類型

b.cte遞歸方式

c.直接程式處理

d.比較傻的方式:全文索引。。。

層級關係是實現這種業務邏輯的最好方式,比較經典的方式是遞歸方式,但是,我們不講這兩個方法內容和實現,因為今天的主題是:全文索引中的坑,因為這是我實實在在遇到的案例

我們的業務邏輯是這樣的,已知一個或者幾個ID,但並不瞭解這個ID的層次關係,需要的數據是提取對應ID的所有層次,比如按上圖來說,我傳入id in(9,910)那麼就要所有河北省的數據,如果我傳入id in(910),那麼所取的數據就是保定市以及下屬所有行政區

 

二、問題出現

為了簡化說明問題,我把數據精簡為表pathtest,數據為下圖形式

image

按照上段說明的業務需求,在path需要建立一個全文索引方便檢索,這個過程相信大家都知道如何建,就不描寫過程了

 

 

我們先看一下實際包含66的數據行有多少?(或者說ID=66及以下的子樹數據集)

select * from pathtest where path like '%,66,%'

image

(49 行受影響)

結果省略一部分,但可以看出是49行

 

之後我運行如下的查詢,查詢路徑下包含66的數據集,也就是ID=66以及之下的子樹

select * from pathtest where freetext(path,'"66"')

(17 行受影響)

image

顯示是17行結果??

 

差這麼多啊?就說是全文索引不精確,這也差太多了吧

OK,我們繼續

select * from pathtest where freetext(path,'"66,480"')

同樣,按邏輯上說,這個查詢同樣是檢索66層次ID下的子樹(PS:這裡480是在66子樹下)

但是:

image

1行???這是什麼情況

我們乾脆再檢索一下ID=480的數據吧

select * from pathtest where freetext(path,'"480"')

image

這下更方便看了,根本就沒有數據,這是怎麼回事?

三、問題研究

有些經驗的同學肯定已經想到這是全文索引建立的時候分詞出現了問題,那麼我們就看一下

sys.dm_fts_parser 這個函數是對字元串按全文索引方式進行關鍵字拆分,具體使用請查閱MSDN

 

我分別取兩個路徑串

1.path=’,66,73,’

2.path=’,66,480,’

我們來看一下拆分的結果

select * from sys.dm_fts_parser ('",66,73,"',1033,0,1)

image

嗯,把66,73分別拆分成字元串關鍵字“66”、“73”以及數值(nn開頭)的66、73一共四條記錄,沒有問題

select * from sys.dm_fts_parser ('",66,480,"',1033,0,1)

image

這下問題出現了,字元串並沒有按我們想的那樣拆分成“66”與“480”的關鍵字,而是生成了”66,480”與66480的兩個關鍵字

所以我們在進行freetext(path,'"66,480"')檢索的時候返回了一條滿足條件的記錄,且freetext(path,'"480"')的時候沒有滿足關鍵字的記錄。

這裡涉及到一個全文索引關鍵詞拆分演算法的問題,sqlserver把類似66,480這種字元串當成了有千分位分隔符的純數字,所以不再進行拆分

但是像66,73這種字元串,不是數字的千分位分隔表示方法,所以進行了拆分

假如我們把66,480這個字元串改寫成66,480,1,則會進行字元串方式的拆分,如下:

select * from sys.dm_fts_parser ('",66,480,1,"',1033,0,1)

image

同時我們知道freetext這個函數也是以建立全文索引的方式進行檢索詞拆分後與全文索引進行比較,所以在進行where freetext(path,'"66,480"')檢索的時候,也是把字元串進行了處理,但同樣是將字元串以千分位分隔數字進行了處理,所以可以檢索出一條path=’66,480’記錄,但是在進行where freetext(path,'"480"')的時候,由於全表的全文索引中,並沒有拆分出480這個字元串關鍵詞,所以沒有滿足條件的記錄

如果我們將檢索串改寫為where freetext(path,'"66 480"'),那麼對於這個邏輯來說,就是要檢索全文索引中滿足66或者480關鍵字的結果集,在本例中,結果集為17條,即與where freetext(path,'"66"')相同(因為空格符做為了斷字元將字元拆為了“66”與“480”,表中滿足66的結果集為17條,480為0條,所以結果總數為17條)

 

四、解決方案

既然知道了是”,”引起的字元串誤判斷,我們就把這個替換掉

update pathtest set path=replace(path,',',';')

等全文索引重新填充完成後,執行

select * from pathtest where freetext(path,'"66"')

(49 行受影響)

好!與直接like的結果一致

之後我們再運行
select * from pathtest where freetext(path,'"66,480"')

(0 行受影響)

!!!什麼情況 !?

之前我們說了,“66,480”會被誤判斷拆分,所以這裡的檢索詞也不能這麼寫了,可以寫空格,也可以寫分號,反正就是不能用逗號,將查詢改為

select * from pathtest where freetext(path,'"66 480"')

(49 行受影響)

 

select * from pathtest where freetext(path,'"480"')

(1 行受影響)

好了,這下與期待結果一致了

 

五、後記

這個問題解決前還出過一段插曲,把“,”替換成了“/”,但是在進行拆分的時候/66/480/拆分成了”66”與”480/”,後來將/加入了stoplist,這個問題就解決掉了,本次測試我沒有再現這個情況,應該是當時設置的斷字語言導致的,有興趣的同學可以自己玩一下。

切記如果你要建的全文索引中有類似的欄位,清註意逗號問題,同時在freetext檢索的時候,也同樣要註意“,”的問題。

 

 

更多深入sqlserver文章,請關註微信號:insidesqlserver 或者掃描二維碼


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 外鍵的使用大家都不陌生,是我們用於保持數據引用完整性的作用~辣今天我就分享一下外鍵的一些限制。1、外鍵引用的是需要其它表的主鍵,或者候選鍵。(這個比較好理解,就不寫代碼了╮(╯_╰)╭)2、外鍵創建之後並不會自動創建索引,這個是有開發人員自己考慮在外鍵上建相關索引是否能獲取到查詢效率上的提升3、預設...
  • 好吧,我確實不知道該怎麼起這個標題,整了一個“分佈”,感覺還有點高檔,其實沒啥技術含量,看完你就知道了。情況是這樣,剛剛接到一個臨時任務,需要讓幾個營業點的銷售數據【變】少一點,就是在ERP的相關報表中,查詢出來的數據要在指定區間,說白了就是那什麼~你懂的,某些同行應該對這種任務很熟悉了,而有些同行...
  • update aset a.StepCode=b.StepCode,a.StepName=b.StepName,a.allowtime=b.allowtime,a.ActionTypeID=b.ActionTypeID,a.YesStep=b.YesStep,a.NoStep=b.NoStep,a....
  • 01.簡述資料庫完整性及其作用?解析:數據的準確性,保證數據中數據的準確性。 02.基本操作語句(DML DDL DCL)有哪些?語法是?DML(data manipulation language):自動提交的資料庫操作語言它們是SELECT、UPDATE、INSERT、DELETE,就象它的名....
  • 本文通過java代碼使用jdbc連接hive,詳細解釋了其操作步驟與問題,適用於hive1.2版本
  • 今天Linux伺服器機子重啟了下,Oracle啟動不起來,提示:解決ORA-00824: cannot set sga_target due to existing看了很多解決方法,發現下麵這個特別好,特別簡單轉:http://blog.chinaunix.net/uid-22448653-id-3...
  • 統計分析中Type I Error與Type II Error的區別 ============== 在統計分析中,經常提到Type I Error和Type II Error。他們的基本概念是什麼?有什麼區別? 下麵的表格顯示 between truth/falseness of the null ...
  • 實體類:using MongoDB.Bson;namespace WindowsFormsApp{ class User { //public ObjectId _id; //BsonType.ObjectId 這個對應了 MongoDB.Bson.ObjectId ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...