VSTO中Word的查找方式

来源:https://www.cnblogs.com/senhtry/archive/2018/07/17/9324015.html
-Advertisement-
Play Games

VSTO中Word的查找方式 前言 使用C 在VSTO開發Word插件的過程,經常需要對文檔中的內容進行查找和替換。在Word中進行文本的查找替換,和一般對純文本的查找替換卻不太一樣。因為Word文檔是一個富文本對象,對文本的查找實際上是對一個對象的查找,而這個或者這種對象對於開發者是未知不可見的, ...


VSTO中Word的查找方式

前言

使用C#在VSTO開發Word插件的過程,經常需要對文檔中的內容進行查找和替換。在Word中進行文本的查找替換,和一般對純文本的查找替換卻不太一樣。因為Word文檔是一個富文本對象,對文本的查找實際上是對一個對象的查找,而這個或者這種對象對於開發者是未知不可見的,因此和純文本搜索比較,不僅存在許多不一樣的地方,也存在一定的難度。本文主要對這些差異進行了討論和分析。

正則全文搜索

通常情況下,對一個文本進行查找,我們會使用正則表達式,找到匹配模式的位置,如下所示。

    var pattern = "[0-9]+?";
    var content = "第1個";
    var mc = System.Text.RegularExpressions.Regex.Matches(content, pattern);

    if (mc.Count > 0)
    {
        foreach (System.Text.RegularExpressions.Match m in mc)
        {
            //獲取匹配字元串在輸入中的索引位置
            int searchIndex = m.Index;
        }
    }

而在Word文檔中,我們可以通過range.Text屬性獲取到文檔的字元串表示,利用相同的正則表達式來進行查找。

    var pattern = "[0-9]+?";
    //獲取文檔的全部字元
    var content = doc.Range().Text;
    var mc = System.Text.RegularExpressions.Regex.Matches(content, pattern);

    if (mc.Count > 0)
    {
        foreach (System.Text.RegularExpressions.Match m in mc)
        {
            //獲取匹配字元串在輸入中的索引位置
            int searchIndex = m.Index;
        }
    }

如果這個文檔都是由純文本組成的,那麼得到的位置,就是查找字元在全文中的真實位置。
然而實際上大多數情況下,文檔還可能有圖片、表格、公式和圖表等格式組成,不僅僅是文本組成。

range位置的替換

Word在將文檔轉換成Text的過程中,如果格式是文本,那麼一個字元A就將轉換成一個字元A(複製);如果格式是富文本對象,比如圖片,那個一個圖片將會轉換成一個空字元串“ ”,僅表示位置。
然而,在Word文檔中,純字元串類型的range的長度就是字元串的長度;非字元串對象的range的長度不確定。所以,經過Text的轉換後,range的位置信息缺少了。查找到字元串在Text的位置,並不能找到該字元串在全文的range位置,也就無法對查找的字元串進行操作了。

//*表示任意字元,range長度為1
//A表示一個圖片,range長度為4
//B表示一個公式,range長度為6

//Word文檔中全文的range位置
****A**B**
(1)(2)(3)(4)(8)(9)(10)(17)(18)(19)

//Text的位置, 如圖
**** ** **
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)

既然字元串的range位置丟失了,索性事先把所有對象的位置先存儲起來。

/// <summary>
/// 從range中獲取每一個字元的實際位置
/// </summary>
/// <param name="range">選中部分</param>
/// <returns>位置列表</returns>
public List<int> GetRangeLocation(Word.Range range)
{
    var ret = new List<int> { };

    foreach (Word.Range c in range.Characters)
    {
        ret.Add(c.Start);
    }

    return ret;
}

利用位置信息,終於可以得到一個可以正確查找文本的方法了。

/// <summary>
/// 根據模式,找到所有匹配的位置
/// </summary>
/// <param name="range">選中部分</param>
/// <param name="pattern">模式</param>
/// <returns>匹配列表</returns>
public List<Word.Range> SearchRangeInPattern(Word.Range range, string pattern)
{
    var ret = new List<Word.Range> { };

    var content = range.Text;
    var doc = range.Document;
    
    //獲取實際的字元位置
    var locationList = GetRangeLocation(range);

    var mc = System.Text.RegularExpressions.Regex.Matches(content, pattern);

    if (mc.Count > 0)
    {
        foreach (System.Text.RegularExpressions.Match m in mc)
        {
            var searchStart = m.Index;
            var searchEnd = m.Index + m.Value.Length;

            //將text位置轉換為range位置
            var realStart = locationList[searchStart];
            var realEnd = locationList[searchEnd];
            
            //獲取匹配的range位置
            var itemRange = doc.Range(realStart, realEnd);

            ret.Add(itemRange);
        }
    }

    return ret;

}

實際運用

在實際運用的過程中,基本不能採用這種全文的正則查找方式,除非要搜索的文本內容長度很小。因為經過測試,獲取字元的實際range位置,具有非常大的時間開銷。原因在於獲取每一個字元都是一次COM調用,調用時間數量級在10毫秒左右。多次的COM調用,使得總調用時間非常大。

find和replace的API查找

在Word的API存在定義好的查找函數,可以使用Word定義的規則(類似於正則表達式)的方式,進行通配符查找。

/// <summary>
/// 替換選中部分的文字
/// </summary>
/// <param name="range">選中部分</param>
/// <param name="search">待替換文字</param>
/// <param name="replace">替換文字</param>
public static void SearchReplace(Word.Range range, string search, string replace)
{
    range.Find.ClearFormatting();
    range.Find.Text = search;
    
    //使用通配符搜索
    range.Find.MatchWildcards = true;
    
    range.Find.Replacement.ClearFormatting();
    range.Find.Replacement.Text = replace;

    object replaceAll = Word.WdReplace.wdReplaceAll;
    object missing = Type.Missing;

    range.Find.Execute(ref missing, ref missing, ref missing, ref missing, ref missing,
        ref missing, ref missing, ref missing, ref missing, ref missing,
        ref replaceAll, ref missing, ref missing, ref missing, ref missing);
}

使用這種方法,查找速度快,執行時間短。
但是缺點也很明顯,匹配經常不准確,比如空格和換行符,由於圖片的懸浮位置影響,無法匹配。
此外基於通配符的匹配,畢竟不是正則表達式,不支持零字元位匹配和or匹配,所以用處有限,許多功能無法實現。

\\捕獲0-無限個數字,
[0-9]* //正則表達式,若幹個數字,包括0個
[0-9]{1,} //Word,若幹個數字,必須1個以上

\\捕獲數字或者字母
[0-9]|[a-z] //正則表達式,一個數字或一個字母
[0-9] then [a-z] //word,只能分成兩次來匹配,不支持or的匹配

總結對比

方式 查找速度 匹配準確度 匹配模式
正則全文搜索 非常慢, 多次COM調用 正則表達式,類型多,只支持文本
Find查找 快,一次COM調用 通配符,類型少,支持多種對象查找

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 恢復內容開始 室友最近情緒很不穩定,喜怒無常!就像來大姨夫了一樣的可怕!所以得做好準備!本文幫助你一步步用Python做出自己的情感分析結果,難道你不想試試看? 情感分析不是炫技工具。它是悶聲發大財的方法。早在2010年,就有學者指出,可以依靠Twitter公開信息的情感分析來預測股市的漲落,準確率 ...
  • 在浮點數當中做運算時經常會出現精度丟失的情況,如果做項目不作處理的話會對商家造成很大的影響的。項目尤其是金融相關的項目對這些運算的精度要求較高。 問題原因:首先電腦進行的是二進位運算,我們輸入的十進位數字會先轉換成二進位,進行運算後再轉換為十進位輸出。Float和Double提供了快速的運算,然而 ...
  • 一個合法的身份證號碼由17位地區、日期編號和順序編號加1位校驗碼組成。校驗碼的計算規則如下: 首先對前17位數字加權求和,權重分配為:{7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2};然後將計算的和對11取模得到值Z;最後按照以下關係對應Z值與校驗碼M的值: 現在給定一些身 ...
  • 本篇文章主要介紹泛型的應用。 泛型是.NET Framework 2.0 版類庫就已經提供的語法,主要用於提高代碼的可重用性、類型安全性和效率。 泛型的定義 下麵定義了一個普通類和一個泛型類,我們可以明確看到泛型類和普通類最大的區別就是多了一個<T>。 所以,這個<T>就標記了,這個類是泛型類。其中 ...
  • 簡介 webserver往小里說核心功能就是socket管理、url處理、http協議處理、業務dll管理等;下麵簡介紹一下http協議:超文本傳輸協議(HTTP)是一種通信協議,當時就是為web傳輸設計的一個基於tcp的協議;基於這個字面上理解,可以簡單的點說就是用tcp來傳輸文本、數據的一種編解 ...
  • 關於C#中的事件,園裡已經有大量的文章對其內在實現做過剖析,如果還不甚瞭解的可以閱讀這篇文章 通過Demo來細看C#事件的內在機制 雖然比較早,但非常清楚地展示了事件的內部機制,總結一下就是 1、事件在被編譯後生成了一個事件對應類型的私有委托,以及對應的_add方法和_remove方法用於該私有委托 ...
  • 本篇介紹如何採用依賴註入的方式創建和使用對象,主要從應用層面進行描述,不涉及具體的內部原理。 ...
  • 參考鏈接:https://www.cnblogs.com/daryl/archive/2017/10/13/7645749.html 全部步驟和參考鏈接相同。 前八部都正常,在第九步會報錯Error: unable to perform an operation on node 'rabbit1@C ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...