[WPF] 離線環境實現支持拼音模糊搜索的AutoCompleteBox

-Advertisement-

Spectre.Console.NET程式員可能都不陌生,寫控制台程式美化還是不錯的,支持著色,表格,圖標等相當Nice,如果對這個庫不熟悉我強烈推薦你瞭解一下,Spectre.Console.Cli作為Spectre.Console的子集,對於寫一些CLI小工具還是相當方便本文主要講講 Spec ...

AutoCompleteBox是一個常見的提高輸入效率的組件，很多WPF的第三方控制項庫都提供了這個組件，但基本都是字元串的子串匹配，不支持拼音模糊匹配，例如無法通過輸入ldh或liudehua匹配到劉德華。要實現拼音模糊搜索功能，通常會採用分詞、資料庫等技術對待匹配數據集進行預處理。某些場景受制於條件限制，無法對數據進行預處理，本文將介紹在這種情況下如何實現支持拼音模糊搜索的AutoCompleteBox，先來看下實現效果。

主要思路

WPF中並沒有AutoCompleteBox控制項，我們可以使用TextBox輸入搜索內容，用Popup+ListBox顯示匹配到的提示內容。拼音模糊匹配漢字則採用字元串匹配的方式來解決，也就是搜索字元串和待匹配數據集的內容全部轉換為拼音字元串，然後進行子串匹配。這裡有三個問題需要解決。

漢字轉換為拼音。
拼音如何匹配。 例如ldh、lidh、ldhua、liudehua、dhua、hua等都能匹配到劉德華
匹配後的內容高亮顯示。 當輸入dhua匹配到劉德華時需要把德華兩個字高亮。

漢字轉換拼音

微軟為了開發者實現國際化語言的互轉，提供了Microsoft Visual Studio International Pack，這個擴展包裡面有中文、日文、韓文、英語等各國語言包，並提供方法實現互轉、獲取拼音、獲取字數、甚至獲取筆畫數等等。下載Microsoft Visual Studio International Pack 1.0 SR1安裝後，在安裝目錄中找到ChnCharInfo.dll，然後在項目中添加引用。
ChnCharInfo.dll獲取漢字的拼音時只能傳入單個字元，因此只能把漢字字元串拆分成一個個字元處理，由於漢字存在多音字情況以及缺少語義信息，獲取的拼音組合可能是多個，例如輸入長江，返回的是changjiang和zhangjiang。漢字轉拼音的方法如下：

/// <summary>
/// 獲取漢字拼音
/// </summary>
/// <param name="str">待處理包含漢字的字元串</param>
/// <param name="split">拼音分隔符</param>
/// <returns></returns>
public static List<string> GetChinesePhoneticize(string str, string split = "")
{
    List<string> result = new List<string>();
    char[] chs = str.ToCharArray();
    Dictionary<int, List<string>> totalPhoneticizes = new Dictionary<int, List<string>>();
    for (int i = 0; i < chs.Length; i++)
    {
        var phoneticizes = new List<string>();
        if (ChineseChar.IsValidChar(chs[i]))
        {
            ChineseChar cc = new ChineseChar(chs[i]);
            phoneticizes.AddRange(cc.Pinyins.Where(r => !string.IsNullOrWhiteSpace(r)).ToList<string>().ConvertAll(p => Regex.Replace(p, @"\d", "").ToLower()).Distinct());
        }
        else
        {
            phoneticizes.Add(chs[i].ToString());
        }
        if (phoneticizes.Any())
            totalPhoneticizes[i] = phoneticizes;
    }

    foreach (var phoneticizes in totalPhoneticizes)
    {
        var items = phoneticizes.Value;
        if (result.Count <= 0)
        {
            result = items;
        }
        else
        {
            var newtotalPhoneticizes = new List<string>();
            foreach (var totalPingYin in result)
            {
                newtotalPhoneticizes.AddRange(items.Select(item => totalPingYin + split + item));
            }
            newtotalPhoneticizes = newtotalPhoneticizes.Distinct().ToList();
            result = newtotalPhoneticizes;
        }
    }
    return result;
}

拼音匹配演算法

漢字轉換後的拼音字元串有多組，只要搜索字元串轉換的拼音組合有一組與待匹配字元串轉換的拼音組合中匹配，則認為匹配成功，為了後續高亮顯示，需要記錄下匹配的起始位置以及匹配的子串長度。代碼如下：

public static bool fuzzyMatchChar(string character, string input, out int matchStart, out int matchCount)
{
    List<string> regexs = GetChinesePhoneticize(input);
    List<string> targetStr = GetChinesePhoneticize(character, " ");
    matchStart = -1;
    matchCount = 0;
    foreach (string regex in regexs)
    {
        foreach (string target in targetStr)
        {
            if (PhoneticizeMatch(regex, target.Split(' '), out matchStart, out matchCount))
                return true;
        }
    }
    return false;
}

這裡的PhoneticizeMatch方法是拼音匹配演算法的核心，是在【演算法】拼音匹配演算法這篇博文中演算法的基礎上稍作修改，詳細的思路及圖解可閱讀這篇博文。

高亮匹配的子串

WPF中可以通過TextEffect的PositionStart、PositionCount以及Foreground屬性設置字元串中需要高亮內容的起始位置、長度以及高亮顏色。前面拼音匹配演算法中獲取了匹配成功子串的起始位置和長度，也正是為此做準備。之前在WPF使用TextBlock實現查找結果高亮顯示一文中有詳細介紹思路和代碼，此處不再贅述。

小結

本文介紹了在不依賴資料庫及分詞的情況下如何實現拼音模糊搜索併在目標字元串中高亮顯示，方法中也存在諸多不足需要完善的地方。

匹配策略存在誤匹配。例如輸入石，可以匹配出拼音為shi的所有漢字。
匹配演算法效率不夠高。測試過程中，待匹配數據集中模擬了500條數據，匹配耗時大概在400~500ms左右。

代碼示例

ChinesePhoneticizeFuzzyMatch

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Docker_Asp.Net項目部署

前言預計在 2024 年 11 月，C# 13 將與 .NET 9 一起正式發佈。今年的 C# 更新主要集中在 ref struct 上進行了許多改進，並添加了許多有助於進一步提高生產力的便利功能。本文將介紹預計將在 C# 13 中添加的功能。註意：目前 C# 13 還未正式發佈，因此以下內容 ...
.net core使用Xabe.FFmpeg包獲取視頻首幀預覽圖

Windows應用開發有很多場景需要動態獲取控制項顯示的圖像，即控制項轉圖片，用於其它界面的顯示、傳輸圖片數據流、保存為本地圖片等用途。下麵分別介紹下一些實現方式以及主要使用場景 RenderTargetBitmap 控制項轉圖片BitmapImage/BitmapSource，在WPF中可以使用Ren ...
C#中使用 record 的好處因為好用所以推薦~

一晃距C# 9發佈已經4年了,對於record關鍵字想必大家都不陌生了,不過呢發現還是有很多同學不屑於使用這個語法糖,確實,本質上 record 就是 class 的封裝,能用 record 書寫的類,那100%都是可以自己手擼出來的,但是呢有沒有考慮別人可能一分鐘寫好的代碼你可能會需要數分鐘才能 ...
搭建.Net WebApi並配置Swagger(一)

C#進階之WebAPI（一）那麼首先第一點：什麼是WebAPI？首先我們瞭解一下.net framework 的框架構成：可以看到，WebAPI和mvc同屬於B/S模板框架的一種，官方對於WebApi的定義是：WebAPI是一個框架，可以輕鬆構建HTTP服務，覆蓋廣泛的客戶端，包括瀏覽器和移動 ...
Windows10禁用資源管理器文件夾自動視圖轉換

最近有需求從第三方獲取到ofd文件後，需要轉pdf，1.目前看的有一個免費的插件，需要安裝程式包 FreeSpire.PDF 安裝後，直接引用 // odf文件地址 string path = @"D:\OFD\20240725\吳天.ofd"; OfdConverter converter = n ...
.NET TCP、UDP、Socket、WebSocket

做.NET應用開發肯定會用到網路通信，而進程間通信是客戶端開發使用頻率較高的場景。進程間通信方式主要有命名管道、消息隊列、共用記憶體、Socket通信，個人使用最多的是Sokcet相關。而Socket也有很多使用方式，Socket、WebSocket、TcpClient、UdpClient，是不是 ...
發佈.NET應用程式，不單獨安裝運行時

很多.NET開發者編譯好的的程式，發佈到另外一臺電腦的時候，往往都不能運行，而是需要安裝運行時。這個大多數人都知道，直接去運行時官網下載對應版本的安裝包即可。比如我用了6.0，那麼選擇對應架構的版本下載即可。然後在目標機器上安裝這個包，就可以運行我們的.NET程式了。這樣操作起來還是有點麻煩，有沒 ...
.NET 輕量級命令行工具 CSharpRepl

前言當我們需要快速測試代碼片段時，常見的做法是啟動Visual Studio或使用線上代碼編輯器。然而，Visual Studio的啟動可能較為緩慢且占用較多系統資源，而線上編輯器則可能遇到語法支持局限或網路延遲問題。為解決這個問題，給大家推薦一款輕量級的本地C#執行工具——CSharpRepl ...