[WPF] 離線環境實現支持拼音模糊搜索的AutoCompleteBox

来源:https://www.cnblogs.com/czwy/p/18321646
-Advertisement-
Play Games

Spectre.Console.NET程式員可能都不陌生,寫控制台程式美化還是不錯的,支持著色,表格,圖標等相當Nice,如果對這個庫不熟悉我強烈推薦你瞭解一下,Spectre.Console.Cli作為Spectre.Console的子集,對於寫一些CLI小工具還是相當方便 本文主要講講 Spec ...


AutoCompleteBox是一個常見的提高輸入效率的組件,很多WPF的第三方控制項庫都提供了這個組件,但基本都是字元串的子串匹配,不支持拼音模糊匹配,例如無法通過輸入ldhliudehua匹配到劉德華。要實現拼音模糊搜索功能,通常會採用分詞、資料庫等技術對待匹配數據集進行預處理。某些場景受制於條件限制,無法對數據進行預處理,本文將介紹在這種情況下如何實現支持拼音模糊搜索的AutoCompleteBox,先來看下實現效果。
image

主要思路

WPF中並沒有AutoCompleteBox控制項,我們可以使用TextBox輸入搜索內容,用Popup+ListBox顯示匹配到的提示內容。拼音模糊匹配漢字則採用字元串匹配的方式來解決,也就是搜索字元串和待匹配數據集的內容全部轉換為拼音字元串,然後進行子串匹配。這裡有三個問題需要解決。

  1. 漢字轉換為拼音。
  2. 拼音如何匹配。 例如ldhlidhldhualiudehuadhuahua等都能匹配到劉德華
  3. 匹配後的內容高亮顯示。 當輸入dhua匹配到劉德華時需要把德華兩個字高亮。

漢字轉換拼音

微軟為了開發者實現國際化語言的互轉,提供了Microsoft Visual Studio International Pack,這個擴展包裡面有中文、日文、韓文、英語等各國語言包,並提供方法實現互轉、獲取拼音、獲取字數、甚至獲取筆畫數等等。下載Microsoft Visual Studio International Pack 1.0 SR1安裝後,在安裝目錄中找到ChnCharInfo.dll,然後在項目中添加引用。
ChnCharInfo.dll獲取漢字的拼音時只能傳入單個字元,因此只能把漢字字元串拆分成一個個字元處理,由於漢字存在多音字情況以及缺少語義信息,獲取的拼音組合可能是多個,例如輸入長江,返回的是changjiangzhangjiang。漢字轉拼音的方法如下:

/// <summary>
/// 獲取漢字拼音
/// </summary>
/// <param name="str">待處理包含漢字的字元串</param>
/// <param name="split">拼音分隔符</param>
/// <returns></returns>
public static List<string> GetChinesePhoneticize(string str, string split = "")
{
    List<string> result = new List<string>();
    char[] chs = str.ToCharArray();
    Dictionary<int, List<string>> totalPhoneticizes = new Dictionary<int, List<string>>();
    for (int i = 0; i < chs.Length; i++)
    {
        var phoneticizes = new List<string>();
        if (ChineseChar.IsValidChar(chs[i]))
        {
            ChineseChar cc = new ChineseChar(chs[i]);
            phoneticizes.AddRange(cc.Pinyins.Where(r => !string.IsNullOrWhiteSpace(r)).ToList<string>().ConvertAll(p => Regex.Replace(p, @"\d", "").ToLower()).Distinct());
        }
        else
        {
            phoneticizes.Add(chs[i].ToString());
        }
        if (phoneticizes.Any())
            totalPhoneticizes[i] = phoneticizes;
    }

    foreach (var phoneticizes in totalPhoneticizes)
    {
        var items = phoneticizes.Value;
        if (result.Count <= 0)
        {
            result = items;
        }
        else
        {
            var newtotalPhoneticizes = new List<string>();
            foreach (var totalPingYin in result)
            {
                newtotalPhoneticizes.AddRange(items.Select(item => totalPingYin + split + item));
            }
            newtotalPhoneticizes = newtotalPhoneticizes.Distinct().ToList();
            result = newtotalPhoneticizes;
        }
    }
    return result;
}

拼音匹配演算法

漢字轉換後的拼音字元串有多組,只要搜索字元串轉換的拼音組合有一組與待匹配字元串轉換的拼音組合中匹配,則認為匹配成功,為了後續高亮顯示,需要記錄下匹配的起始位置以及匹配的子串長度。代碼如下:

public static bool fuzzyMatchChar(string character, string input, out int matchStart, out int matchCount)
{
    List<string> regexs = GetChinesePhoneticize(input);
    List<string> targetStr = GetChinesePhoneticize(character, " ");
    matchStart = -1;
    matchCount = 0;
    foreach (string regex in regexs)
    {
        foreach (string target in targetStr)
        {
            if (PhoneticizeMatch(regex, target.Split(' '), out matchStart, out matchCount))
                return true;
        }
    }
    return false;
}

這裡的PhoneticizeMatch方法是拼音匹配演算法的核心,是在【演算法】拼音匹配演算法這篇博文中演算法的基礎上稍作修改,詳細的思路及圖解可閱讀這篇博文。

高亮匹配的子串

WPF中可以通過TextEffectPositionStartPositionCount以及Foreground屬性設置字元串中需要高亮內容的起始位置、長度以及高亮顏色。前面拼音匹配演算法中獲取了匹配成功子串的起始位置和長度,也正是為此做準備。之前在WPF使用TextBlock實現查找結果高亮顯示一文中有詳細介紹思路和代碼,此處不再贅述。

小結

本文介紹了在不依賴資料庫及分詞的情況下如何實現拼音模糊搜索併在目標字元串中高亮顯示,方法中也存在諸多不足需要完善的地方。

  1. 匹配策略存在誤匹配。例如輸入,可以匹配出拼音為shi的所有漢字。
  2. 匹配演算法效率不夠高。測試過程中,待匹配數據集中模擬了500條數據,匹配耗時大概在400~500ms左右。

代碼示例

ChinesePhoneticizeFuzzyMatch


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 預計在 2024 年 11 月,C# 13 將與 .NET 9 一起正式發佈。今年的 C# 更新主要集中在 ref struct 上進行了許多改進,並添加了許多有助於進一步提高生產力的便利功能。 本文將介紹預計將在 C# 13 中添加的功能。 註意:目前 C# 13 還未正式發佈,因此以下內容 ...
  • Windows應用開發有很多場景需要動態獲取控制項顯示的圖像,即控制項轉圖片,用於其它界面的顯示、傳輸圖片數據流、保存為本地圖片等用途。 下麵分別介紹下一些實現方式以及主要使用場景 RenderTargetBitmap 控制項轉圖片BitmapImage/BitmapSource,在WPF中可以使用Ren ...
  • 一晃距C# 9發佈已經4年了,對於record關鍵字想必大家都不陌生了,不過呢發現還是有很多同學不屑於使用這個語法糖,確實,本質上 record 就是 class 的封裝,能用 record 書寫的類,那100%都是可以自己手擼出來的,但是呢有沒有考慮 別人可能一分鐘寫好的代碼你可能會需要數分鐘才能 ...
  • C#進階之WebAPI(一) 那麼首先第一點:什麼是WebAPI? 首先我們瞭解一下.net framework 的框架構成: 可以看到,WebAPI和mvc同屬於B/S模板框架的一種,官方對於WebApi的定義是:WebAPI是一個框架,可以輕鬆構建HTTP服務,覆蓋廣泛的客戶端,包括瀏覽器和移動 ...
  • 最近有需求從第三方獲取到ofd文件後,需要轉pdf,1.目前看的有一個免費的插件,需要安裝程式包 FreeSpire.PDF 安裝後,直接引用 // odf文件地址 string path = @"D:\OFD\20240725\吳天.ofd"; OfdConverter converter = n ...
  • 做.NET應用開發肯定會用到網路通信,而進程間通信是客戶端開發使用頻率較高的場景。 進程間通信方式主要有命名管道、消息隊列、共用記憶體、Socket通信,個人使用最多的是Sokcet相關。 而Socket也有很多使用方式,Socket、WebSocket、TcpClient、UdpClient,是不是 ...
  • 很多.NET開發者編譯好的的程式,發佈到另外一臺電腦的時候,往往都不能運行,而是需要安裝運行時。這個大多數人都知道,直接去運行時官網下載對應版本的安裝包即可。比如我用了6.0,那麼選擇對應架構的版本下載即可。然後在目標機器上安裝這個包,就可以運行我們的.NET程式了。 這樣操作起來還是有點麻煩,有沒 ...
  • 前言 當我們需要快速測試代碼片段時,常見的做法是啟動Visual Studio或使用線上代碼編輯器。然而,Visual Studio的啟動可能較為緩慢且占用較多系統資源,而線上編輯器則可能遇到語法支持局限或網路延遲問題。 為解決這個問題,給大家推薦一款輕量級的本地C#執行工具——CSharpRepl ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...