從a文件判斷是否刪除b文件中的行(sed示例)

来源:https://www.cnblogs.com/f-ck-need-u/archive/2018/04/15/8849371.html
-Advertisement-
Play Games

test.xml文件很大,內容結構如下: list.txt文件較小,內容如下: 需求是,如果<url>...</url>中間包含了list.txt文件中的某一行,則刪除這個<url>...</url>。 在這裡需要說明下sed的局限性:(1).sed處理輸入流是一次性的,只要某行被sed讀取了,就一 ...


test.xml文件很大,內容結構如下:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<url>
    <loc>http://www.u1cat.net/index.php?ctl=register</loc>
    <lastmod>2016-10-31</lastmod>
    <changefreq>always</changefreq>
    <priority>aaa</priority>
</url>

<url>
    <loc>http://www.u2bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>bbb</priority>
</url>
<url>
    <loc>http://www.u3bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ccc</priority>
</url>
<url>
    <loc>http://www.u4bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>
<url>
    <loc>http://www.u5bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>
......

list.txt文件較小,內容如下:

bbb
xxx
yyy
ccc

需求是,如果<url>...</url>中間包含了list.txt文件中的某一行,則刪除這個<url>...</url>

在這裡需要說明下sed的局限性:
(1).sed處理輸入流是一次性的,只要某行被sed讀取了,就一定不會再讀取。因此,讀取到某滿足匹配要求的行時,無法定位到它前面的某行、某幾行。
(2).sed自身沒有顯式的迴圈結構,例如while、for、until。但是通過某些功能的結合,可以隱式地實現迴圈。據我總結,只有標簽跳轉和"NDP"才能實現這種隱式意義上的迴圈。
(3).sed和system命令交互的局限性非常大。只有e命令和s命令的e修飾符才能執行system中的命令。
正是這3個局限性,導致sed實現上面的需求非常困難。

以下是一種效率非常高的方法:只讀取一次test.xml和list.txt文件,併在每次讀取到<url>...</url>的時候判斷是否需要刪除這一段。

創建sed腳本文件a.sed:

#!/usr/bin/sed -nf

\%<url>%!p
1{s/.*/cat list.txt/e;h}

\%<url>%{
N;N;N;N;N;G;
\%<priority>(.*)</priority>.*\1.*%d
}

s%</url>.*%</url>%p

執行sed:

sed -rn -f a.sed test.xml

由於上面示例文件中<priority>bbb</priority><priority>ccc</priority>的bbb、ccc存在於list.txt文件中,因此這兩個<url>...</url>段落要刪除。執行結果為:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<url>
    <loc>http://www.u1cat.net/index.php?ctl=register</loc>
    <lastmod>2016-10-31</lastmod>
    <changefreq>always</changefreq>
    <priority>aaa</priority>
</url>

<url>
    <loc>http://www.u4bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>
<url>
    <loc>http://www.u5bat.cc/index.php?ctl=register</loc>
    <lastmod>2015-11-18</lastmod>
    <changefreq>always</changefreq>
    <priority>ddd</priority>
</url>

思路大致為:

  • (1).一開始就通過sed的e命令將list.txt文件讀取到pattern space空間,並保存到hold space。
  • (2).每讀取到的時候就繼續讀取後面5行,正好讀到。
  • (3).讀完了後,把hold space中的內容追加回pattern space,並從XXXXX開始判斷後面是否還有XXXXX,如果有就直接刪除pattern space,否則就將追加回pattern space的list.txt內容刪除,最後輸出。
  • (4).這樣的執行方式,只需讀取一次test.xml和list.txt文件,效率很高。

 

回到Linux系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7048359.html
回到網站架構系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7576137.html
回到資料庫系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7586194.html
轉載請註明出處:http://www.cnblogs.com/f-ck-need-u/p/8849371.html

註:若您覺得這篇文章還不錯請點擊右下角推薦,您的支持能激發作者更大的寫作熱情,非常感謝!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 預設值表達式生成類型的預設值。 預設值表達式在泛型類和泛型方法中非常有用。 使用泛型類和泛型方法時出現的一個問題是,如何在無法提前知道以下內容的情況下將預設值賦值給參數化類型 T: T 是引用類型還是值類型。 如果 T 是值類型,它是數值還是用戶定義的結構。 已知參數化類型 T 的變數 t,僅當 T ...
  • 介紹 什麼是RESTful? 這裡不多做贅述,詳情請百度! 哈哈,本來還想巴拉巴拉介紹一些webapi, RESTful的, 還是算了,咱們直接上乾貨!(原因是懶!哈哈) 使用 以前使用過mvc的人對webapi 應該都很熟悉,先看一段熟悉的代碼 大伙發現了什麼沒?跟以往mvc大多數相同,但有些地方 ...
  • 介紹 關於什麼是Claim? 可以看看其他大神的文章: http://www.cnblogs.com/jesse2013/p/aspnet-identity-claims-based-authentication-and-owin.html http://www.cnblogs.com/savorb ...
  • (CLR via C#閱讀筆記) 基元類型(primitive type): 基元類型也不做過多的解釋,舉個例子即可清晰的辨別 在java里曾使用過Sting s="java"; 定義字元串,然後就會覺得很詫異,為啥是大寫開頭,我寫C#,一直都是 string ,int ,double,float等 ...
  • 報錯信息如下: 註:為了部分隱私安全需要,已將有問題文件名替換為filename,系統win2008R2,Microsoft .NET Framework 版本:4.0.30319; ASP.NET 版本:4.7.2623.0 第一開始嘗試過給C:\Windows\Microsoft.NET\Fra ...
  • 本文的概念內容來自深入淺出設計模式一書. 項目需求 有這樣一個可編程的新型遙控器, 它有7個可編程插槽, 每個插槽可連接不同的家用電器設備. 每個插槽對應兩個按鈕: 開, 關(ON, OFF). 此外還有一個全局的取消按鈕(UNDO). 現在客戶想使用這個遙控器來控制不同廠家的家用電器, 例如電燈, ...
  • 博客鏈接:https://wiki.feiffy.cc/Blog:如何在Ubuntu上安裝GNOME ...
  • 上面理論知識,最下麵有我做的測試的例子: 10.Shell運算符 expr是一款表達式計算工具,使用它能完成表達式的求值操作 例:val=`expr 2 + 2`;echo "${val}" 註意: 表達式和運算符之間要有空格,2+2是錯誤的,2 + 2是正確的 完整的表達式要被``包含 A.算術運 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...