從a文件判斷是否刪除b文件中的行(sed示例)

-Advertisement-

test.xml文件很大，內容結構如下： list.txt文件較小，內容如下：需求是，如果<url>...</url>中間包含了list.txt文件中的某一行，則刪除這個<url>...</url>。在這裡需要說明下sed的局限性：(1).sed處理輸入流是一次性的，只要某行被sed讀取了，就一 ...

test.xml文件很大，內容結構如下：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<url>
    <loc>http://www.u1cat.net/index.php?ctl=register</loc>
    <lastmod>2016-10-31</lastmod>
    <changefreq>always</changefreq>
    <priority>aaa</priority>
</url>

<url>
    <loc>http://www.u2bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>bbb</priority>
</url>
<url>
    <loc>http://www.u3bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ccc</priority>
</url>
<url>
    <loc>http://www.u4bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>
<url>
    <loc>http://www.u5bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>
......

list.txt文件較小，內容如下：

bbb
xxx
yyy
ccc

需求是，如果<url>...</url>中間包含了list.txt文件中的某一行，則刪除這個<url>...</url>。

在這裡需要說明下sed的局限性：
(1).sed處理輸入流是一次性的，只要某行被sed讀取了，就一定不會再讀取。因此，讀取到某滿足匹配要求的行時，無法定位到它前面的某行、某幾行。
(2).sed自身沒有顯式的迴圈結構，例如while、for、until。但是通過某些功能的結合，可以隱式地實現迴圈。據我總結，只有標簽跳轉和"NDP"才能實現這種隱式意義上的迴圈。
(3).sed和system命令交互的局限性非常大。只有e命令和s命令的e修飾符才能執行system中的命令。
正是這3個局限性，導致sed實現上面的需求非常困難。

以下是一種效率非常高的方法：只讀取一次test.xml和list.txt文件，併在每次讀取到<url>...</url>的時候判斷是否需要刪除這一段。

創建sed腳本文件a.sed：

#!/usr/bin/sed -nf

\%<url>%!p
1{s/.*/cat list.txt/e;h}

\%<url>%{
N;N;N;N;N;G;
\%<priority>(.*)</priority>.*\1.*%d
}

s%</url>.*%</url>%p

執行sed：

sed -rn -f a.sed test.xml

由於上面示例文件中<priority>bbb</priority>和<priority>ccc</priority>的bbb、ccc存在於list.txt文件中，因此這兩個<url>...</url>段落要刪除。執行結果為：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<url>
    <loc>http://www.u1cat.net/index.php?ctl=register</loc>
    <lastmod>2016-10-31</lastmod>
    <changefreq>always</changefreq>
    <priority>aaa</priority>
</url>

<url>
    <loc>http://www.u4bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>
<url>
    <loc>http://www.u5bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>

思路大致為：

(1).一開始就通過sed的e命令將list.txt文件讀取到pattern space空間，並保存到hold space。
(2).每讀取到的時候就繼續讀取後面5行，正好讀到。
(3).讀完了後，把hold space中的內容追加回pattern space，並從XXXXX開始判斷後面是否還有XXXXX，如果有就直接刪除pattern space，否則就將追加回pattern space的list.txt內容刪除，最後輸出。
(4).這樣的執行方式，只需讀取一次test.xml和list.txt文件，效率很高。

回到Linux系列文章大綱：http://www.cnblogs.com/f-ck-need-u/p/7048359.html
回到網站架構系列文章大綱：http://www.cnblogs.com/f-ck-need-u/p/7576137.html
回到資料庫系列文章大綱：http://www.cnblogs.com/f-ck-need-u/p/7586194.html
轉載請註明出處：http://www.cnblogs.com/f-ck-need-u/p/8849371.html

註：若您覺得這篇文章還不錯請點擊右下角推薦，您的支持能激發作者更大的寫作熱情，非常感謝！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C# defualt關鍵字預設值用法

預設值表達式生成類型的預設值。預設值表達式在泛型類和泛型方法中非常有用。使用泛型類和泛型方法時出現的一個問題是，如何在無法提前知道以下內容的情況下將預設值賦值給參數化類型 T： T 是引用類型還是值類型。如果 T 是值類型，它是數值還是用戶定義的結構。已知參數化類型 T 的變數 t，僅當 T ...
ASP.NET CORE系列【五】webapi整理以及RESTful風格化

介紹什麼是RESTful？這裡不多做贅述，詳情請百度！哈哈，本來還想巴拉巴拉介紹一些webapi, RESTful的，還是算了，咱們直接上乾貨！（原因是懶！哈哈）使用以前使用過mvc的人對webapi 應該都很熟悉，先看一段熟悉的代碼大伙發現了什麼沒？跟以往mvc大多數相同，但有些地方 ...
ASP.NET CORE系列【四】基於Claim登錄授權

介紹關於什麼是Claim？可以看看其他大神的文章： http://www.cnblogs.com/jesse2013/p/aspnet-identity-claims-based-authentication-and-owin.html http://www.cnblogs.com/savorb ...
CLR-基元類型以及溢出檢查

（CLR via C#閱讀筆記）基元類型（primitive type）：基元類型也不做過多的解釋，舉個例子即可清晰的辨別在java里曾使用過Sting s="java"; 定義字元串，然後就會覺得很詫異，為啥是大寫開頭，我寫C#,一直都是 string ,int ,double,float等 ...
未能載入文件或程式集“***”或它的某一個依賴項。拒絕訪問 <解決>

報錯信息如下：註：為了部分隱私安全需要，已將有問題文件名替換為filename，系統win2008R2,Microsoft .NET Framework 版本:4.0.30319; ASP.NET 版本:4.7.2623.0 第一開始嘗試過給C:\Windows\Microsoft.NET\Fra ...
使用 C# (.NET Core) 實現命令設計模式 (Command Pattern)

本文的概念內容來自深入淺出設計模式一書. 項目需求有這樣一個可編程的新型遙控器, 它有7個可編程插槽, 每個插槽可連接不同的家用電器設備. 每個插槽對應兩個按鈕: 開, 關(ON, OFF). 此外還有一個全局的取消按鈕(UNDO). 現在客戶想使用這個遙控器來控制不同廠家的家用電器, 例如電燈, ...
如何在Ubuntu上安裝GNOME

博客鏈接：https://wiki.feiffy.cc/Blog:如何在Ubuntu上安裝GNOME ...
Shell自學之運算符和echo(W3C)

上面理論知識,最下麵有我做的測試的例子: 10.Shell運算符 expr是一款表達式計算工具,使用它能完成表達式的求值操作例:val=`expr 2 + 2`;echo "${val}" 註意: 表達式和運算符之間要有空格,2+2是錯誤的,2 + 2是正確的完整的表達式要被``包含 A.算術運 ...