C#比較兩個字元串的相似度【轉】

-Advertisement-

原文地址：http://www.2cto.com/kf/201202/121170.html 我們在做數據系統的時候，經常會用到模糊搜索，但是，資料庫提供的模糊搜索並不具備按照相關度進行排序的功能。現在提供一個比較兩個字元串相似度的方法。通過計算出兩個字元串的相似度，就可以通過Linq在記憶體中對數 ...

原文地址：http://www.2cto.com/kf/201202/121170.html

我們在做數據系統的時候，經常會用到模糊搜索，但是，資料庫提供的模糊搜索並不具備按照相關度進行排序的功能。

現在提供一個比較兩個字元串相似度的方法。
通過計算出兩個字元串的相似度，就可以通過Linq在記憶體中對數據進行排序和篩選，選出和目標字元串最相似的一個結果。

本次所用到的相似度計算公式是相似度=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0)
其中，q是字元串1和字元串2中都存在的單詞的總數，s是字元串1中存在，字元串2中不存在的單詞總數，r是字元串2中存在，字元串1中不存在的單詞總數. Kq,Kr和ka分別是q,r,s的權重，根據實際的計算情況，我們設Kq=2，Kr=Ks=1.
根據這個相似度計算公式，得出以下程式代碼：
/// <summary>
/// 獲取兩個字元串的相似度
/// </summary>
/// <param name=”sourceString”>第一個字元串</param>
/// <param name=”str”>第二個字元串</param>
/// <returns></returns>
public static decimal GetSimilarityWith(this string sourceString, string str)
{

decimal Kq = 2;
decimal Kr = 1;
decimal Ks = 1;

char[] ss = sourceString.ToCharArray();
char[] st = str.ToCharArray();

//獲取交集數量
int q = ss.Intersect(st).Count();
int s = ss.Length – q;
int r = st.Length – q;

return Kq * q / (Kq * q + Kr * r + Ks * s);
}

這就是計算字元串相似度的方法，但是實際應用時，還需要考慮到同義詞或近義詞的情況發生，如“愛造人小說閱讀的更新最快”和“愛造人小說閱讀地更新最快” 。兩個字元串在一定意義上說其實是相同的，如果使用上述方法計算就會出現不准確的情況。所以在實際應用的時候，我們需要替換同義詞或近義詞，計算替換後的相似度。
如果是近義詞，需要綜合替換近義詞前和近義詞後的計算結果，得出兩個字元串的實際相似度。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

ArrayList源碼解析（JDK1.8）

1 package java.util; 2 3 import sun.misc.SharedSecrets; 4 5 import java.util.function.Consumer; 6 import java.util.function.Predicate; 7 import java.u... ...
ONLYOFFICE連接數20個限制的由來

搜onlyoffice document server的github上的issue，會得到這2個地址https://github.com/ONLYOFFICE/DocumentServer/issues/67https://github.com/ONLYOFFICE/DocumentServer/i ...
ASP.NET Core 2.0 : 七.一張圖看透啟動背後的秘密

為什麼我們可以在Startup這個 “孤零零的” 類中配置依賴註入和管道？它是什麼時候被實例化並且調用的？參數中的IServiceCollection services是怎麼來的? 處理管道是怎麼構建起來的？啟動過程中，系統“默默的”做了哪些準備工作？上一篇文章講了ASP.NET Core中 ...
自行學習XAML控制項後的簡單想法（作業一）

由於自身專業水平的欠佳，我對於XAML控制項的學習並不深刻，只在簡單瞭解過後產生了一二想法，也許十分荒謬，就減省地談談。以下五種控制項，是我在學習後，並不十分看好或有所疑慮的。在瀏覽XAML Controls Gallery上各種控制項的簡單介紹時，這個控制項引起我註意，它通過坐標軸控制每個內容的分佈，是 ...
interface

interface 學習使用interface定義介面，介面不儲存數據，所以沒有欄位，但是可以有屬性，實現介面的類必須包括介面的所有方法和屬性，否則無法編譯。公共介面中的所有方法都會自動成為公共方法，因為介面就是用來定義實現該介面的類應該具有的公共方法和屬性。不能實例化介面，不過可以引用接 ...
MVC 之HTML輔助方法

顧名思義，HTML輔助方法（HTML Helper）就是用來輔助產生HTML之用，在開發View的時候一定會面對許多HTML標簽，處理這些HTML的工作非常繁瑣，為了降低View的複雜度，可以使用HTML輔助方法幫助你產生一些HTML標簽或內容，因這些HTML標簽都有固定標準的寫法，所以將其包裝成H ...
C#基礎-代碼部署資料庫及IIS站點

一、前言最近忙裡偷閑，做了一個部署資料庫及IIS網站站點的WPF應用程式工具。二、內容此工具的目的是：最終樣式：(Check按鈕的作用是防止與本機已有的站點或程式池有衝突) View： View的後臺文件： ViewModel： ...
自己手寫一個SpringMVC 框架

一、瞭解SpringMVC運行流程及九大組件 1、SpringMVC 的運行流程 · 用戶發送請求至前端控制器DispatcherServlet · DispatcherServlet收到請求調用HandlerMapping處理器映射器。 · 處理器映射器根據請求url找到具體的處理器，生成處理器對 ...