[WPF] 離線環境實現支持拼音模糊搜索的AutoCompleteBox

来源:https://www.cnblogs.com/czwy/p/18321646
-Advertisement-
Play Games

Spectre.Console.NET程式員可能都不陌生,寫控制台程式美化還是不錯的,支持著色,表格,圖標等相當Nice,如果對這個庫不熟悉我強烈推薦你瞭解一下,Spectre.Console.Cli作為Spectre.Console的子集,對於寫一些CLI小工具還是相當方便 本文主要講講 Spec ...


AutoCompleteBox是一個常見的提高輸入效率的組件,很多WPF的第三方控制項庫都提供了這個組件,但基本都是字元串的子串匹配,不支持拼音模糊匹配,例如無法通過輸入ldhliudehua匹配到劉德華。要實現拼音模糊搜索功能,通常會採用分詞、資料庫等技術對待匹配數據集進行預處理。某些場景受制於條件限制,無法對數據進行預處理,本文將介紹在這種情況下如何實現支持拼音模糊搜索的AutoCompleteBox,先來看下實現效果。
image

主要思路

WPF中並沒有AutoCompleteBox控制項,我們可以使用TextBox輸入搜索內容,用Popup+ListBox顯示匹配到的提示內容。拼音模糊匹配漢字則採用字元串匹配的方式來解決,也就是搜索字元串和待匹配數據集的內容全部轉換為拼音字元串,然後進行子串匹配。這裡有三個問題需要解決。

  1. 漢字轉換為拼音。
  2. 拼音如何匹配。 例如ldhlidhldhualiudehuadhuahua等都能匹配到劉德華
  3. 匹配後的內容高亮顯示。 當輸入dhua匹配到劉德華時需要把德華兩個字高亮。

漢字轉換拼音

微軟為了開發者實現國際化語言的互轉,提供了Microsoft Visual Studio International Pack,這個擴展包裡面有中文、日文、韓文、英語等各國語言包,並提供方法實現互轉、獲取拼音、獲取字數、甚至獲取筆畫數等等。下載Microsoft Visual Studio International Pack 1.0 SR1安裝後,在安裝目錄中找到ChnCharInfo.dll,然後在項目中添加引用。
ChnCharInfo.dll獲取漢字的拼音時只能傳入單個字元,因此只能把漢字字元串拆分成一個個字元處理,由於漢字存在多音字情況以及缺少語義信息,獲取的拼音組合可能是多個,例如輸入長江,返回的是changjiangzhangjiang。漢字轉拼音的方法如下:

/// <summary>
/// 獲取漢字拼音
/// </summary>
/// <param name="str">待處理包含漢字的字元串</param>
/// <param name="split">拼音分隔符</param>
/// <returns></returns>
public static List<string> GetChinesePhoneticize(string str, string split = "")
{
    List<string> result = new List<string>();
    char[] chs = str.ToCharArray();
    Dictionary<int, List<string>> totalPhoneticizes = new Dictionary<int, List<string>>();
    for (int i = 0; i < chs.Length; i++)
    {
        var phoneticizes = new List<string>();
        if (ChineseChar.IsValidChar(chs[i]))
        {
            ChineseChar cc = new ChineseChar(chs[i]);
            phoneticizes.AddRange(cc.Pinyins.Where(r => !string.IsNullOrWhiteSpace(r)).ToList<string>().ConvertAll(p => Regex.Replace(p, @"\d", "").ToLower()).Distinct());
        }
        else
        {
            phoneticizes.Add(chs[i].ToString());
        }
        if (phoneticizes.Any())
            totalPhoneticizes[i] = phoneticizes;
    }

    foreach (var phoneticizes in totalPhoneticizes)
    {
        var items = phoneticizes.Value;
        if (result.Count <= 0)
        {
            result = items;
        }
        else
        {
            var newtotalPhoneticizes = new List<string>();
            foreach (var totalPingYin in result)
            {
                newtotalPhoneticizes.AddRange(items.Select(item => totalPingYin + split + item));
            }
            newtotalPhoneticizes = newtotalPhoneticizes.Distinct().ToList();
            result = newtotalPhoneticizes;
        }
    }
    return result;
}

拼音匹配演算法

漢字轉換後的拼音字元串有多組,只要搜索字元串轉換的拼音組合有一組與待匹配字元串轉換的拼音組合中匹配,則認為匹配成功,為了後續高亮顯示,需要記錄下匹配的起始位置以及匹配的子串長度。代碼如下:

public static bool fuzzyMatchChar(string character, string input, out int matchStart, out int matchCount)
{
    List<string> regexs = GetChinesePhoneticize(input);
    List<string> targetStr = GetChinesePhoneticize(character, " ");
    matchStart = -1;
    matchCount = 0;
    foreach (string regex in regexs)
    {
        foreach (string target in targetStr)
        {
            if (PhoneticizeMatch(regex, target.Split(' '), out matchStart, out matchCount))
                return true;
        }
    }
    return false;
}

這裡的PhoneticizeMatch方法是拼音匹配演算法的核心,是在【演算法】拼音匹配演算法這篇博文中演算法的基礎上稍作修改,詳細的思路及圖解可閱讀這篇博文。

高亮匹配的子串

WPF中可以通過TextEffectPositionStartPositionCount以及Foreground屬性設置字元串中需要高亮內容的起始位置、長度以及高亮顏色。前面拼音匹配演算法中獲取了匹配成功子串的起始位置和長度,也正是為此做準備。之前在WPF使用TextBlock實現查找結果高亮顯示一文中有詳細介紹思路和代碼,此處不再贅述。

小結

本文介紹了在不依賴資料庫及分詞的情況下如何實現拼音模糊搜索併在目標字元串中高亮顯示,方法中也存在諸多不足需要完善的地方。

  1. 匹配策略存在誤匹配。例如輸入,可以匹配出拼音為shi的所有漢字。
  2. 匹配演算法效率不夠高。測試過程中,待匹配數據集中模擬了500條數據,匹配耗時大概在400~500ms左右。

代碼示例

ChinesePhoneticizeFuzzyMatch


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 預計在 2024 年 11 月,C# 13 將與 .NET 9 一起正式發佈。今年的 C# 更新主要集中在 ref struct 上進行了許多改進,並添加了許多有助於進一步提高生產力的便利功能。 本文將介紹預計將在 C# 13 中添加的功能。 註意:目前 C# 13 還未正式發佈,因此以下內容 ...
  • Windows應用開發有很多場景需要動態獲取控制項顯示的圖像,即控制項轉圖片,用於其它界面的顯示、傳輸圖片數據流、保存為本地圖片等用途。 下麵分別介紹下一些實現方式以及主要使用場景 RenderTargetBitmap 控制項轉圖片BitmapImage/BitmapSource,在WPF中可以使用Ren ...
  • 一晃距C# 9發佈已經4年了,對於record關鍵字想必大家都不陌生了,不過呢發現還是有很多同學不屑於使用這個語法糖,確實,本質上 record 就是 class 的封裝,能用 record 書寫的類,那100%都是可以自己手擼出來的,但是呢有沒有考慮 別人可能一分鐘寫好的代碼你可能會需要數分鐘才能 ...
  • C#進階之WebAPI(一) 那麼首先第一點:什麼是WebAPI? 首先我們瞭解一下.net framework 的框架構成: 可以看到,WebAPI和mvc同屬於B/S模板框架的一種,官方對於WebApi的定義是:WebAPI是一個框架,可以輕鬆構建HTTP服務,覆蓋廣泛的客戶端,包括瀏覽器和移動 ...
  • 最近有需求從第三方獲取到ofd文件後,需要轉pdf,1.目前看的有一個免費的插件,需要安裝程式包 FreeSpire.PDF 安裝後,直接引用 // odf文件地址 string path = @"D:\OFD\20240725\吳天.ofd"; OfdConverter converter = n ...
  • 做.NET應用開發肯定會用到網路通信,而進程間通信是客戶端開發使用頻率較高的場景。 進程間通信方式主要有命名管道、消息隊列、共用記憶體、Socket通信,個人使用最多的是Sokcet相關。 而Socket也有很多使用方式,Socket、WebSocket、TcpClient、UdpClient,是不是 ...
  • 很多.NET開發者編譯好的的程式,發佈到另外一臺電腦的時候,往往都不能運行,而是需要安裝運行時。這個大多數人都知道,直接去運行時官網下載對應版本的安裝包即可。比如我用了6.0,那麼選擇對應架構的版本下載即可。然後在目標機器上安裝這個包,就可以運行我們的.NET程式了。 這樣操作起來還是有點麻煩,有沒 ...
  • 前言 當我們需要快速測試代碼片段時,常見的做法是啟動Visual Studio或使用線上代碼編輯器。然而,Visual Studio的啟動可能較為緩慢且占用較多系統資源,而線上編輯器則可能遇到語法支持局限或網路延遲問題。 為解決這個問題,給大家推薦一款輕量級的本地C#執行工具——CSharpRepl ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...