VSTO中Word的查找方式

-Advertisement-

VSTO中Word的查找方式前言使用C 在VSTO開發Word插件的過程，經常需要對文檔中的內容進行查找和替換。在Word中進行文本的查找替換，和一般對純文本的查找替換卻不太一樣。因為Word文檔是一個富文本對象，對文本的查找實際上是對一個對象的查找，而這個或者這種對象對於開發者是未知不可見的， ...

VSTO中Word的查找方式

前言

使用C#在VSTO開發Word插件的過程，經常需要對文檔中的內容進行查找和替換。在Word中進行文本的查找替換，和一般對純文本的查找替換卻不太一樣。因為Word文檔是一個富文本對象，對文本的查找實際上是對一個對象的查找，而這個或者這種對象對於開發者是未知不可見的，因此和純文本搜索比較，不僅存在許多不一樣的地方，也存在一定的難度。本文主要對這些差異進行了討論和分析。

正則全文搜索

通常情況下，對一個文本進行查找，我們會使用正則表達式，找到匹配模式的位置，如下所示。

    var pattern = "[0-9]+?";
    var content = "第1個";
    var mc = System.Text.RegularExpressions.Regex.Matches(content, pattern);

    if (mc.Count > 0)
    {
        foreach (System.Text.RegularExpressions.Match m in mc)
        {
            //獲取匹配字元串在輸入中的索引位置
            int searchIndex = m.Index;
        }
    }

而在Word文檔中，我們可以通過range.Text屬性獲取到文檔的字元串表示，利用相同的正則表達式來進行查找。

    var pattern = "[0-9]+?";
    //獲取文檔的全部字元
    var content = doc.Range().Text;
    var mc = System.Text.RegularExpressions.Regex.Matches(content, pattern);

    if (mc.Count > 0)
    {
        foreach (System.Text.RegularExpressions.Match m in mc)
        {
            //獲取匹配字元串在輸入中的索引位置
            int searchIndex = m.Index;
        }
    }

如果這個文檔都是由純文本組成的，那麼得到的位置，就是查找字元在全文中的真實位置。
然而實際上大多數情況下，文檔還可能有圖片、表格、公式和圖表等格式組成，不僅僅是文本組成。

range位置的替換

Word在將文檔轉換成Text的過程中，如果格式是文本，那麼一個字元A就將轉換成一個字元A（複製）；如果格式是富文本對象，比如圖片，那個一個圖片將會轉換成一個空字元串“ ”，僅表示位置。
然而，在Word文檔中，純字元串類型的range的長度就是字元串的長度；非字元串對象的range的長度不確定。所以，經過Text的轉換後，range的位置信息缺少了。查找到字元串在Text的位置，並不能找到該字元串在全文的range位置，也就無法對查找的字元串進行操作了。

//*表示任意字元，range長度為1
//A表示一個圖片，range長度為4
//B表示一個公式，range長度為6

//Word文檔中全文的range位置
****A**B**
(1)(2)(3)(4)(8)(9)(10)(17)(18)(19)

//Text的位置, 如圖
**** ** **
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)

既然字元串的range位置丟失了，索性事先把所有對象的位置先存儲起來。

/// <summary>
/// 從range中獲取每一個字元的實際位置
/// </summary>
/// <param name="range">選中部分</param>
/// <returns>位置列表</returns>
public List<int> GetRangeLocation(Word.Range range)
{
    var ret = new List<int> { };

    foreach (Word.Range c in range.Characters)
    {
        ret.Add(c.Start);
    }

    return ret;
}

利用位置信息，終於可以得到一個可以正確查找文本的方法了。

/// <summary>
/// 根據模式，找到所有匹配的位置
/// </summary>
/// <param name="range">選中部分</param>
/// <param name="pattern">模式</param>
/// <returns>匹配列表</returns>
public List<Word.Range> SearchRangeInPattern(Word.Range range, string pattern)
{
    var ret = new List<Word.Range> { };

    var content = range.Text;
    var doc = range.Document;
    
    //獲取實際的字元位置
    var locationList = GetRangeLocation(range);

    var mc = System.Text.RegularExpressions.Regex.Matches(content, pattern);

    if (mc.Count > 0)
    {
        foreach (System.Text.RegularExpressions.Match m in mc)
        {
            var searchStart = m.Index;
            var searchEnd = m.Index + m.Value.Length;

            //將text位置轉換為range位置
            var realStart = locationList[searchStart];
            var realEnd = locationList[searchEnd];
            
            //獲取匹配的range位置
            var itemRange = doc.Range(realStart, realEnd);

            ret.Add(itemRange);
        }
    }

    return ret;

}

實際運用

在實際運用的過程中，基本不能採用這種全文的正則查找方式，除非要搜索的文本內容長度很小。因為經過測試，獲取字元的實際range位置，具有非常大的時間開銷。原因在於獲取每一個字元都是一次COM調用，調用時間數量級在10毫秒左右。多次的COM調用，使得總調用時間非常大。

find和replace的API查找

在Word的API存在定義好的查找函數，可以使用Word定義的規則（類似於正則表達式）的方式，進行通配符查找。

/// <summary>
/// 替換選中部分的文字
/// </summary>
/// <param name="range">選中部分</param>
/// <param name="search">待替換文字</param>
/// <param name="replace">替換文字</param>
public static void SearchReplace(Word.Range range, string search, string replace)
{
    range.Find.ClearFormatting();
    range.Find.Text = search;
    
    //使用通配符搜索
    range.Find.MatchWildcards = true;
    
    range.Find.Replacement.ClearFormatting();
    range.Find.Replacement.Text = replace;

    object replaceAll = Word.WdReplace.wdReplaceAll;
    object missing = Type.Missing;

    range.Find.Execute(ref missing, ref missing, ref missing, ref missing, ref missing,
        ref missing, ref missing, ref missing, ref missing, ref missing,
        ref replaceAll, ref missing, ref missing, ref missing, ref missing);
}

使用這種方法，查找速度快，執行時間短。
但是缺點也很明顯，匹配經常不准確，比如空格和換行符，由於圖片的懸浮位置影響，無法匹配。
此外基於通配符的匹配，畢竟不是正則表達式，不支持零字元位匹配和or匹配，所以用處有限，許多功能無法實現。

\\捕獲0-無限個數字,
[0-9]* //正則表達式，若幹個數字，包括0個
[0-9]{1,} //Word，若幹個數字，必須1個以上

\\捕獲數字或者字母
[0-9]|[a-z] //正則表達式，一個數字或一個字母
[0-9] then [a-z] //word，只能分成兩次來匹配，不支持or的匹配

總結對比

方式	查找速度	匹配準確度	匹配模式
正則全文搜索	非常慢, 多次COM調用	高	正則表達式，類型多，只支持文本
Find查找	快，一次COM調用	中	通配符，類型少，支持多種對象查找

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

室友最近情緒很不穩定！只好用Python來進行情緒分析！此技乃神技

恢復內容開始室友最近情緒很不穩定，喜怒無常！就像來大姨夫了一樣的可怕！所以得做好準備！本文幫助你一步步用Python做出自己的情感分析結果，難道你不想試試看？情感分析不是炫技工具。它是悶聲發大財的方法。早在2010年，就有學者指出，可以依靠Twitter公開信息的情感分析來預測股市的漲落，準確率 ...
java防止double和float精度丟失的方法

在浮點數當中做運算時經常會出現精度丟失的情況，如果做項目不作處理的話會對商家造成很大的影響的。項目尤其是金融相關的項目對這些運算的精度要求較高。問題原因：首先電腦進行的是二進位運算，我們輸入的十進位數字會先轉換成二進位，進行運算後再轉換為十進位輸出。Float和Double提供了快速的運算，然而 ...
7-63 查驗身份證（15 分）

一個合法的身份證號碼由17位地區、日期編號和順序編號加1位校驗碼組成。校驗碼的計算規則如下：首先對前17位數字加權求和，權重分配為：{7，9，10，5，8，4，2，1，6，3，7，9，10，5，8，4，2}；然後將計算的和對11取模得到值Z；最後按照以下關係對應Z值與校驗碼M的值：現在給定一些身 ...
C#語法——泛型的多種應用

本篇文章主要介紹泛型的應用。泛型是.NET Framework 2.0 版類庫就已經提供的語法，主要用於提高代碼的可重用性、類型安全性和效率。泛型的定義下麵定義了一個普通類和一個泛型類，我們可以明確看到泛型類和普通類最大的區別就是多了一個<T>。所以，這個<T>就標記了，這個類是泛型類。其中 ...
動手做webserver的核心之http解析

簡介 webserver往小里說核心功能就是socket管理、url處理、http協議處理、業務dll管理等；下麵簡介紹一下http協議：超文本傳輸協議(HTTP)是一種通信協議，當時就是為web傳輸設計的一個基於tcp的協議；基於這個字面上理解，可以簡單的點說就是用tcp來傳輸文本、數據的一種編解 ...
警惕C#事件使用過程中的GC陷阱

關於C#中的事件，園裡已經有大量的文章對其內在實現做過剖析，如果還不甚瞭解的可以閱讀這篇文章通過Demo來細看C#事件的內在機制雖然比較早，但非常清楚地展示了事件的內部機制，總結一下就是 1、事件在被編譯後生成了一個事件對應類型的私有委托，以及對應的_add方法和_remove方法用於該私有委托 ...
循序漸進學.Net Core Web Api開發系列【11】：依賴註入

本篇介紹如何採用依賴註入的方式創建和使用對象，主要從應用層面進行描述，不涉及具體的內部原理。 ...
求助：RabbitMQ集群搭建bug

參考鏈接：https://www.cnblogs.com/daryl/archive/2017/10/13/7645749.html 全部步驟和參考鏈接相同。前八部都正常，在第九步會報錯Error: unable to perform an operation on node 'rabbit1@C ...