sed修煉系列(一):花拳繡腿之入門篇

来源:http://www.cnblogs.com/f-ck-need-u/archive/2017/09/07/7488469.html
-Advertisement-
Play Games

本文目錄: 1 基本概念2 sed選項3 定址表達式4 sed常用命令5 總結 1.基本概念 sed是一個流式編輯器程式,它讀取輸入流(可以是文件、標準輸入)的每一行放進模式空間(pattern space),同時將此行行號通過sed行號計數器記錄在記憶體中,然後對模式空間中的行進行模式匹配,如果能匹 ...


本文目錄:

1 基本概念
2 sed選項
3 定址表達式
4 sed常用命令
5 總結


1.基本概念

sed是一個流式編輯器程式,它讀取輸入流(可以是文件、標準輸入)的每一行放進模式空間(pattern space),同時將此行行號通過sed行號計數器記錄在記憶體中,然後對模式空間中的行進行模式匹配,如果能匹配上則使用sed程式內部的命令進行處理,處理結束後,從模式空間中輸出(預設)出去,並清空模式空間,隨後再從輸入流中讀取下一行到模式空間中進行相同的操作,直到輸入流中的所有行都處理完成。由此可見,sed是一個迴圈一個迴圈處理內容的。

這是sed的一個迴圈的過程:

  1. 讀取輸入流的一行到模式空間。
  2. 對模式空間中的內容進行匹配和處理。
  3. 自動輸出模式空間內容。
  4. 清空模式空間內容。
  5. 讀取輸入流的下一行到模式空間。

上述整個迴圈過程中,第2步是我們寫sed命令所修改的地方,其餘的幾個步驟,通過命令行無法改變。但是,sed有幾個命令和選項能改變第3、4步的行為,使其輸出總是輸出空內容或無法清空模式空間。

sed程式的語法格式為:

sed OPTIONS SCRIPT INPUT_STREAM

其中SCRIPT部分就是所謂的sed腳本,它是sed內部命令的集合,sed中的命令有些奇特,它包含行匹配以及要執行的命令。格式為ADDR1[,ADDR2]cmd_list。例如,要對第2行執行刪除命令,其命令為sed 2d filename,只輸出第4行到6行,其命令為sed -n 4,6p

sed的內部命令非常多,但既然"花拳繡腿篇",當然只介紹些入門的東西。具體的行匹配方法、有哪些命令以及哪些選項稍後解釋。現在的重點是sed中的迴圈過程。既然SCRIPT是命令的集合,於是上面的迴圈過程可以修改為如下:

  1. 讀取輸入流的一行到模式空間。
  2. 對模式空間中內容執行SCRIPT。(包括上面示例中的"2d"和"4,6p")
  3. 讀取輸入流的下一行到模式空間。
  4. 對模式空間中內容執行SCRIPT。

其中SCRIPT部分包含了sed命令行中的內部命令,還包括兩個特殊動作:自動輸出和清空模式空間內容。這兩個動作是一定會執行的,只不過有些時候通過某些命令可以使其輸出空內容、使其清空不了模式空間。

如果使用編程結構來描述,則大致過程如下:

for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        execute cmd3 in SCRIPT;
        ……
        auto_print;
        remove_pattern_space;
    done
done

其中while迴圈執行的正是SCRIPT中的所有命令,只不過一般情況下,while迴圈只執行一輪就退出併進入外層的for迴圈。於是,外層的for迴圈稱之為"sed迴圈",內層的while迴圈稱之為"SCRIPT"迴圈。所以,for迴圈只包含了兩個動作:讀取下一行和執行SCRIPT迴圈。

其實while迴圈中是有continue、break甚至是exit的,分別表示回到SCRIPT的頂端(即進入下一個SCRIPT迴圈)、退出當前SCRIPT迴圈回到外層sed迴圈以及退出整個sed迴圈。顯然,這不是"花拳繡腿"的內容。

最後,說明下sed命令行如何書寫,其實就是寫SCRIPT部分,這部分的寫法比較靈活,大致有以下幾種:

# 一行式。多個命令使用分號分隔
sed Address{cmd1;cmd2;cmd3...}

# 多個表達式時,可以使用"-e"選項,也可以不用,但使用分號分隔
sed Address1{cmd1;cmd2;cmd3};Address2{cmd1;cmd2;cmd3}...
sed  -e 'Address1{cmd1;cmd2;cmd3}' -e 'Address2{cmd1;cmd2;cmd3}' ...

# 分行寫時
sed Address1{
    cmd1
    cmd2
    cmd3
}
Address2{
    cmd1
    cmd2
    cmd3
}

如果是寫在文件中,即sed腳本,以文件名為a.sed為例。

#!/usr/bin/sed -f
#註釋行
Address1{cmd1;cmd2...}
Address2{cmd1;cmd2...}
......

有了以上基本的大綱性知識,理解和深入sed機制就簡單多了。


3.sed選項

sed選項不算多,能用到的更沒幾個。

sed OPTIONS SCRIPT INPUT_STREAM

可能用到的幾個選項:

'-n'
預設情況下,sed將在每輪script迴圈結束時自動輸出模式空間中的內容。使用該選項後可以使得這次自動輸出動作輸出空內容,而不是當前模式空間中的內容。註意,"-n"是輸出空內容而不是禁用輸出動作,雖然兩者的結果都是不輸出任何內容,但在有些依賴於輸出動作和輸出流的地方,它們的區別是很大的,前者有輸出流,只是輸出空流,後者則沒有輸出流。

'-e SCRIPT'
前文說了,SCRIPT中包含的是命令的集合,"-e"選項就是向SCRIPT中添加命令的。可以省略"-e"選項,但如果命令行容易產生歧義,則使用"-e"選項可明確說明這部分是SCRIPT中的命令。另外,如果一個"-e"選項不方便描述所需命令集合時,可以指定多個"-e"選項。

'-f SCRIPT-FILE'
指定包含命令集合的SCRIPT文件,讓sed根據SCRIPT文件中的命令集處理輸入流。

'-i[SUFFIX]'
該選項指定要將sed的輸出結果保存(覆蓋的方式)到當前編輯的文件中。GNU sed是通過創建一個臨時文件並將輸入寫入到該臨時文件,然後重命名為源文件來實現的。

噹噹前輸入流處理結束後,臨時文件被重命名為源文件的名稱。如果還提供了SUFFIX,則在重命名臨時文件之前,先使用該SUFFIX修改源文件名,從而生成一個源文件的備份文件。

臨時文件總是會被重命名為源文件名稱,也就是說輸入流處理結束後,仍使用源文件名的文件是sed修改後的文件。文件名中包含了SUFFIX的文件則是最原始文件的備份。例如源文件為a.txt,sed -i'.log' SCRIPT a.txt將生成兩個文件:a.txt和a.txt.log,前者是sed修改後的文件,a.txt.log是源a.txt的備份文件。

重命名的規則如下:如果擴展名不包含符號"*",將SUFFIX添加到原文件名的後面當作文件尾碼;如果SUFFIX中包含了一個或多個字元"*",則每個"*"都替換為原文件名。這使得你可以為備份文件添加一個首碼,而不是尾碼。如果沒有提供SUFFIX,源文件被覆蓋,且不會生成備份文件。

該選項隱含了"-s"選項。

'-r'
使用擴展正則表達式,而不是使用預設的基礎正則表達式。sed所支持的擴展正則表達式和egrep一樣。使用擴展正則表達式顯得更簡潔,因為有些元字元不用再使用反斜線"\"。正則表達式見grep命令中文手冊

'-s'
預設情況下,如果為sed指定了多個輸入文件,如sed OPTIONS SCRIPT file1 file2 file3,則多個文件會被sed當作一個長的輸入流,也就是說所有文件被當成一個大文件。指定該選項後,sed將認為命令行中給定的每個文件都是獨立的輸入流。

既然是獨立的輸入流,範圍定址(如/abc/,/def/)就無法跨越多個文件進行匹配,行號也會在處理每個文件時重置,"$"代表的也將是每個文件的最後一行。這也意味著,如果不使用該選項,則這幾個行為都是可以完成的。


示例:以sed命令"p"和"="為例,其中"p"命令用於強制輸出當前模式空間中的內容,"="命令用於輸出sed行號計數器當前的值,即剛被讀入到模式空間中的行是輸入流中的第幾行。

(1).只輸出a.txt中的第5行。

sed -n 5p a.txt

這裡使用了"-n"選項,使得讀取到模式空間的每一行都無法被輸出,只有明確使用了"p"選項才能被"p"動作輸出。由於只有讀入的第5行內容能匹配"5",才能被"p"輸出。

其實上面的命令和sed -n -e '5p' a.txt是完全一樣的,因為"5p"在sed解析命令行時不會產生歧義,所以可以省略"-e"選項。

(2).輸出a.txt,並輸出每行的行號。

sed '=' a.txt

由於要輸出a.txt的內容,所以不使用"-n"選項,同時"="命令會輸出每行行號。

(3).分別輸出a.txt和b.txt的第5行,並分別保存到".bak"尾碼的文件中。

sed -i'*.bak' -n '5p' a.txt b.txt

此處必須使用"-s"選項,否則將只會輸出"a.txt+b.txt"結合後的第5行。但"-i"隱含了"-s"選項。這會生成4個文件:a.txt、b.txt和a.txt.bak、b.txt.bak。前兩個是第5行內容,後兩個是源文件的備份文件。

(4).使用擴展正則表達式,輸出a.txt和b.txt中能包含3個以上字母"a"的行。

sed -r -n '/aaa+/p' a.txt b.txt

3.定址表達式

當sed將輸入流中的行讀取到模式空間後,就需要對模式空間中的內容進行匹配,如果能匹配就能執行對應的命令,如果不能匹配就直接輸出、清空模式空間併進入下一個sed迴圈讀取下一行。

匹配的過程稱為定址。定址表達式有多種,但總的來說,其格式為[ADDR1][,ADDR2]。這可以分為3種方式:

  1. ADDR1和ADDR2都省略時,表示所有行都能被匹配上。
  2. 省略ADDR2時,表示只有被ADDR1表達式匹配上的行才符合條件。
  3. 不省略ADDR2時,是範圍地址。表示從ADDR1匹配成功的行開始,到ADDR2匹配成功的行結束。

無論是ADDR1還是ADDR2,都可以使用兩種方式進行匹配:行號和正則表達式。如下:

'N'
指定一個行號,sed將只匹配該行。(需要註意,除非使用了"-s"或"-i"選項,sed將對所有輸入文件的行連續計數。)

'FIRST~STEP'
表示從第FIRST行開始,每隔STEP行就再取一次。也就是取行號滿足FIRST+(N*STEP) (其中N>=0)的行。因此,要選擇所有奇數行,使用"1~2";要從第2行開始每隔3行取一次,使用"2~3";要從第10行開始每隔5行取一次,使用"10~5";而"50~0"則表示只取第50行。

'$'
預設該符號匹配的是最後一個文件的最後一行,如果指定了"-i"或"-s",則匹配的是每個文件的最後一行。總之,"$"匹配的是每個輸入流的最後一行。

需要註意的是,sed採用行號計數器來臨時記錄當前行的行號,因此sed在讀取到最後一行前即使是倒數第二行的時候,完全不知道最後一行是第幾行,所以代表最後一行的"$"無法進行任何數學運算,例如倒數第二行使用"$-1"表示是錯誤的。而且,"$"只是一個額外的標記符號,當sed讀取到輸入流的最後一行時,發現這就是最後一行,於是為此行打上"$"記號,並讀取到模式空間中。

'/REGEXP/'
將選擇能被正則表達式REGEXP匹配的所有行。如果REGEXP中自身包含了字元"/",則必須使用反斜線轉義,即"\/"

'/REGEXP/I'
和"/REGEXP/"是一樣的,只不過匹配的時候不區分大小寫。

'\%REGEXP%'
('%'可以使用其他任意單個字元替換。) 這和上一個定址表達式的作用是一樣的,只不過是使用符號"%"替換了符號"/"。當REGEXP中包含"/"符號時,使用該定址表達式就無需對"/"使用反斜線"\"轉義。但如果此時REGEXP中包含了"%"符號時,該符號需要使用"\"轉義。
總之,定址表達式中使用的分隔符在REGEXP中出現時,都需要使用反斜線轉義。

'ADDR1,+N'
匹配ADDR1和其後的N行。

'ADDR1,~N'
匹配ADDR1和其後的行直到出現N的倍數行。倍數可為隨意整數倍,只要N的倍數是最接近且大於ADDR1的即可。 如ADDR1=1,N=3匹配1-3行,ADDR1=5,N=4匹配5-8行。而"1,+3"匹配的是第一行和其後的3行即1-4行。

另外,在定址表達式的後面加"!"符號表示反轉匹配的含義。也就是說那些匹配的行將不被選擇,而是不匹配的行被選擇。

例如,以下幾個定址的示例:

sed -n '3p' INPUTFILE
sed -n '3,5!p' INPUTFILE
sed -n '3,/^# .*/! p' INPUTFILE
sed -n '/abc/,/xyz/p' INPUTFILE
sed -n '!p' INPUTFILE   # 這個有悖常理,但確實是允許的

4.sed常用命令

sed命令很多,本文的只簡單介紹幾個最常見的。

(1).強制輸出命令"p"。

該命令能強制輸出當前模式空間的內容。即使使用了"-n"選項。

事實上,它們本就不衝突,因為迴圈過程如下:

for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{print};        # "p" command
        ……
        auto_print;
        remove_pattern_space;
    done
done

在sed處理的過程中,"p"和"auto_print"是兩個輸出動作,都是輸出當前模式空間的內容,只不過auto_print是隱含動作。使用了"-n"選項,其所影響的動作僅是"auto_print",使其輸出空內容。也因此,當沒有使用"-n"選項時,模式空間的內容會被輸出兩次。

例如,僅輸出標準輸入的第2行內容。

[root@xuexi ~]# echo -e 'abc\nxyz' | sed -n 2p
xyz

不加"-n"選項,在"p"輸出之後,SCRIPT迴圈的結尾處還會被auto_print輸出一次。

[root@xuexi ~]# echo -e 'abc\nxyz' | sed 2p   
abc
xyz    # 這是p命令輸出的結果
xyz    # 這是自動輸出的結果

(2).刪除命令"d"。

命令"d"用於刪除整個模式空間中的內容,並立即退出當前SCRIPT迴圈,進入下一個sed迴圈,即讀取下一行

迴圈大致格式如下:

for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{delete;break};     # "d" command
        ……
        auto_print;
        remove_pattern_space;
    done
done

唯一需要註意的一點是立即退出當前SCRIPT迴圈,這意味著如果"d"命令後面還有其他的命令,則這些命令都不會執行。

例如:刪除a.txt中的第5行,並保存到原文件中。

sed -i '5d' a.txt

這裡不能使用重定向的方式保存,因為重定向是在sed命令執行前被shell執行的,所以會截斷a.txt,使得sed讀取的輸入流為空,或者結果出乎意料之外。而"-i"選項則不會操作原文件,而是生成臨時文件併在結束時重命名為原文件名。

刪除a.sh中包含"#"開頭的註釋行,但第一行的#!/bin/bash不刪除。

sed '/^#/{1!d}' a.sh 

如果"d"後面還有命令,在刪除模式空間後,這些命令不會執行,因為會理解退出當前SCRIPT迴圈。例如:

echo -e 'abc\nxyz' | sed '{/abc/d;=}'
2
xyz

其中"="這個命令用於輸出行號,但是結果並沒有輸出被"abc"匹配的行的行號。

(3).退出sed程式命令"q"和"Q"。

使用"q"和"Q"命令的作用是立即退出當前sed程式,使其不再執行後面的命令,也不再讀取後面的行。因此,在處理大文件或大量文件時,使用"q"或"Q"命令能提高很大效率。它們之間的不同之處在於"q"命令被執行後還會使用自動輸出動作輸出模式空間的內容,除非使用了"-n"選項。而"Q"命令則會立即退出,不會輸出模式空間內容。另外,可以為它們指定退出狀態碼,例如"q 1"。

使用了"q"和"Q"的sed迴圈結構大致如下:

# "q"命令
for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{auto_print;exit};     # "q" command
        ……
        auto_print;
        remove_pattern_space;
    done
done

# "Q"命令
for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{exit};      # "Q" command
        ……
        auto_print;
        remove_pattern_space;
    done
done

例如,搜索腳本a.sh,當搜索到使用了"."或"source"命令載入環境配置腳本時就輸出並立即退出。

sed -n -r '/^[ \t]*(\.|source) /{p;q}' a.sh 

(4).輸出行號命令"="。

"="命令用於輸出最近被讀取行的行號。在sed內部,使用行號計數器進行行號計數,每讀取一行,行號計數器加1。計數器的值存儲在記憶體中,在要求輸出行號時,直接插入在輸出流中的指定位置。由於值是存在於記憶體中,而非模式空間中,因此不受"-n"選項的影響。

這是一個依賴於輸出流的命令,只要有輸出動作就會追加在該輸出流的尾部

例如,搜索出httpd.conf中"DocumentRoot"開頭的行的行號,允許有前導空白字元。

sed -n '/^[ \t]*DocumentRoot/{p;=}' httpd.conf        
DocumentRoot "/var/www/html"
119

如果"="命令前沒有"p"輸出命令,且沒有使用"-n"選項,則是輸出在Document所在行的前一行,因為SCRIPT最後的自動輸出動作也有輸出流。

(5).字元一一對應替換命令"y"。

該命令和"tr"命令的映射功能一樣,都是將字元進行一一替換。

例如,將a.txt中包含大寫字母的YES、Yes等替換成小寫的yes。

sed 'y/YES/yes/' a.txt

(6).手動讀取下一行命令"n"。

在sed的迴圈過程中,每個sed迴圈的第一步都是讀取輸入流的下一行到模式空間中,這是我們無法控制的動作。但sed有讀取下一行的命令"n"。

由於是讀取下一行,所以它會觸發自動輸出的動作,於是就有了輸出流。不僅如此,還應該記住的是:只要有讀取下一行的行為,在其真正開始讀取之前一定有隱式自動輸出的行為

但需註意,當沒有下一行可供"n"讀取時(例如文件的最後一行已經被讀取過了),將輸出模式空間內容後直接退出sed程式,使得"n"命令後的所有命令都不會執行,即使是那兩個隱含動作。

相應的迴圈結構如下:

for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{              # "n" command
            if [ "$line" -ne "$last_line_num" ];then
                auto_print;
                remove_pattern_space;
                read next_line to pattern_space;
            else
                auto_print;
                remove_pattern_space;
                exit;
            fi
        }; 
        ……
        auto_print;
        remove_pattern_space;
    done
done

註意,是先判斷是否有下一行可讀取,再輸出和清空pattern space中的內容,所以then和else語句中都有這兩個動作。 也許感覺上似乎更應該像下麵這樣的優化形式:

 ADDR1,ADDR2{              # "n" command
         auto_print;
         remove_pattern_space;
         [ "$line" -ne "$last_line_num" ] && read next_line to pattern_space || exit;
 }; 

但事實證明並非如此,證明過程在本文結尾。此處暫不討論這些複雜的東西,先看看"n"命令的示例。

例如,搜索a.txt中包含"redirect"字元串的行以及其下一行,並輸出。

sed -n '/redirect/{p;n;p}' a.txt

再例如下麵的命令。

echo -e "abc\ndef\nxyz" | sed '/abc/{n;=;p}' 
abc
2
def
def
xyz

從結果中可以分析出,"n"讀取下一行前輸出了"abc",然後立即讀入了下一行,所以輸出的行號是2而不是1,因為這時候行號計數器已經讀取了下一行,隨後命令"p"輸出了該模式空間的內容,輸出後還有一次自動輸出的隱含動作,所以"def"被輸出了兩次。

(7).替換命令"s"。

這是sed用的最多的命令。兩個字就能概括其功能:替換。將匹配到的內容替換成指定的內容。

"s"命令的語法格式為:其中"/"可以替換成任意其他單個字元。

s/REGEXP/REPLACEMENT/FLAGS

它使用REGEXP去匹配行,將匹配到的那部分字元替換成REPLACEMENT。FLAGS是"s"命令的修飾符,常見的有"g"、"p"和"i"或"I"。

  • "g":表示替換行中所有能被REGEXP匹配的部分。不使用g時,預設只替換行中的第一個匹配內容。此外,"g"還可以替換成一個數值N,表示只替換行中第N個被匹配的內容。

  • "p":輸出替換後模式空間中的內容。

  • "i"或"I":REGEXP匹配時不區分大小寫。

REPLACEMENT中可以使用"\N"(N是從1到9的整數)進行後向引用,所代表的是REGEXP第N個括弧(...)中匹配的內容。另外,REPLACEMENT中可以包含未轉義的"&"符號,這表示引用pattern space中被匹配的整個內容。需要註意,"&"是引用pattern space中的所有匹配,不僅僅只是括弧的分組匹配。

例如,刪除a.sh中所有"#"開頭(可以包括前導空白)的註釋符號"#",但第一行"#!/bin/bash"不處理。

sed -i '2,$s/^[ \t]*#//' a.sh

為a.sh文件中的第5行到最後一行的行首加上註釋符號"#"。

sed '5,$s/^/#/' a.sh

將a.sh中所有的"int"單詞替換成"SIGINT"。

sed 's/\bint\b/SIGINT/g' a.sh

將a.sh中"cmd1 && cmd2 || cmd3"的cmd2和cmd3命令對調個位置。

sed 's%&&\(.*\) ||\(.*\)%\&\&\2 ||\1%' a.sh  

這裡使用了"%"代替"/",且在REPLACEMENT部分對"&"進行了轉義,因為該符號在REPLACEMENT中時表示的是引用REGEXP所匹配的所有內容。

(8).追加、插入和修改命令"a"、"i"、"c"。

這3個命令的格式是"[a|i|c] TEXT",表示將TEXT內容隊列化到記憶體中,當有輸出流或者說有輸出動作的時候,半路追上輸出流,分別追加、插入和替換到該輸出流然後輸出。追加是指追加在輸出流的尾部,插入是指插入在輸出流的首部,替換是指將整個輸出流替換掉。"c"命令和"a"、"i"命令有一絲不同,它替換結束後立即退出當前SCRIPT迴圈,併進入下一個sed迴圈,因此"c"命令後的命令都不會被執行。

例如:

echo -e "abc\ndef" | sed '/abc/a xyz'
abc
xyz
def

其實"a"、"i"和"c"命令的TEXT部分寫法是比較複雜的,如果TEXT只是幾個簡單字元,如上即可。但如果要TEXT是分行文本,或者包含了引號,或者這幾個命令是寫在"{}"中的,則上面的寫法就無法實現。需要使用符號"\"來轉義行尾符號,這表示開啟一個新行,此後輸入的內容都是TEXT,直到遇到引號或者";"開頭的行時。

例如,在a.sh的#!/bin/bash行後添加一個註釋行"# Script filename: a.sh"以及一個空行。由於是追加在尾部,所以使用"a"命令。

sed '\%#!/bin/bash%a\# Script filename: a.sh\n' a.sh

"a"命令後的第一個反斜線用於標記TEXT的開始,"\n"用於添加空白行。如果分行寫,或者"a"命令寫在大括弧"{}"中,則格式如下:

sed '\%#!/bin/bash%a\
# Script filename: a.sh\n
' a.sh

sed '\%#!/bin/bash%{p;a\
# Script filename: a.sh\n
;p}' a.sh

最後需要說的是,這3個命令的TEXT是存放在記憶體中的,不會進入模式空間,因此不受"-n"選項或某些命令的影響。此外,這3個命令依賴於輸出流,只要有輸出動作,不管是空輸出流還是非空的輸出流,只要有輸出,這幾個命令就會半路"劫殺"。如果不理解這兩句話,這3個命令的結果有時可能會比較疑惑。

例如,"a"命令是追加在當前匹配行行尾的,但為什麼下麵的"haha"卻插入到匹配行"def"的前面去了呢?

echo -e "abc\ndef\nxyz" | sed '/def/{a\
haha
;N}'

abc
haha
def
xyz

閱讀了下麵的"N"命令之後,再回頭看這個示例,應該能知道為什麼。

(9).多行模式命令"N"、"D"、"P"簡單說明。

在前面已經解釋了"n"、"d"和"p"命令,sed還支持它們的大寫命令"N"、"D"和"P"。

  • "N"命令:讀取下一行內容追加到模式空間的尾部。其和"n"命令不同之處在於:"n"命令會輸出模式空間的內容(除非使用了"-n"選項)並清空模式空間,然後才讀取下一行到模式空間,也就是說"n"命令雖然讀取了下一行到模式空間,但模式空間仍然是單行數據。而"N"命令在讀取下一行前,雖然也有自動輸出和清空模式空間的動作,但該命令會把當前模式空間的內容鎖住,使得自動輸出的內容為空,也無法清空模式空間,然後讀取下一行追加到當前模式空間中的尾部。追加時,原有內容和新讀取內容使用換行符"\n"分隔,這樣在模式空間中就實現了多行數據。即所謂的"多行模式"。 另外,當無法讀取到下一行時(到了文件尾部),將直接退出sed程式,使得"N"命令後的命令不會再執行,這和"n"命令是一樣的。

  • "D"命令:刪除模式空間中第一個換行符"\n"之前的內容,然後立即回到SCRIPT迴圈的頂端,即進入下一個SCRIPT迴圈。如果"D"刪除後,模式空間中已經沒有內容了,則SCRIPT迴圈自動退出進入下一個sed迴圈;如果模式空間還有剩餘內容,則繼續從頭執行SCRIPT迴圈。也就是說,"D"命令後的命令不會被執行。

  • "P"命令:輸出模式空間中第一個換行符"\n"之前的內容。

"N"、"D"和"P"命令作用非常大,它們是絕佳的組合命令,因為藉助它們能實現"視窗滑動"技術,這對於複雜的文本行操作來說大有裨益。但顯然,這不是本文的內容,在後面的文章中我會詳細介紹這3個命令的功能。

此處按照慣例,還是給出它們的大致迴圈結構:其中"N"命令的if判斷和前文的"n"一樣,在本文結尾證明

# "N"命令的大致迴圈結構 
for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{           # "N" command
            if [ "$line" -ne "$last_line_num" ];then
                lock pattern_space;
                auto_print;
                remove_pattern_space;
                unlock pattern_space;
                append "\n" to pattern_space;
                read next_line to pattern_space;
            else
                auto_print;
                remove_pattern_space;                   
                exit;
            fi
        }; 
        ……
        auto_print;
        remove_pattern_space;
    done
done

# "D"命令的大致迴圈結構
for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{               # "D" command
            delete first line in pattern_space;
            continue;
        }; 
        ……
        auto_print;
        remove_pattern_space;
    done
done

# "P"命令的大致迴圈結構
for ((line=1;line<=last_line_num;++line))
do
    read $line to pattern_space;
    while pattern_space is not null
    do
        execute cmd1 in SCRIPT;
        execute cmd2 in SCRIPT;
        ADDR1,ADDR2{               # "P" command
            print first line in pattern_space;
        }; 
        ……
        auto_print;
        remove_pattern_space;
    done
done

(10).buffer空間數據交換命令"h"、"H"、"g"、"G"、"x"簡單說明。

sed除了維護模式空間(pattern space),還維護另一個buffer空間:保持空間(hold space)。這兩個空間初始狀態都是空的。

絕大多數時候,sed僅依靠模式空間就能達到目的,但有些複雜的數據操作則只能藉助保持空間來實現。之所以稱之為保持空間,是因為它是暫存數據用的,除了僅有的這幾個命令外,沒有任何其他命令可以操作該空間,因此藉助它能實現數據的持久性。

保持空間的作用很大,它和模式空間之間的數據交換能實現很多看上去不能實現的功能,是實現sed高級功能所必須的,例如"視窗滑動"。同樣,這不是本文的內容。所以只簡單解釋這幾個命令的作用:

  • "h"命令:將當前模式空間中的內容覆蓋到保持空間。

  • "H"命令:在保持空間的尾部加上一個換行符"\n",並將當前模式空間的內容追加到保持空間的尾部。

  • "g"命令:將保持空間的內容覆蓋到當前模式空間。

  • "G"命令:在模式空間的尾部加上一個換行符"\n",並將當前保持空間的內容追加到模式空間的尾部。

  • "x"命令:交換模式空間和保持空間的內容。

註意,無論是交換、追加還是覆蓋,原空間的內容都不會被刪除。


總結

看到這裡,對sed已經有了一些概念,也許已經發現了sed的重點在於各選項和各命令是如何影響sed迴圈以及SCRIPT迴圈的。確實如此,在info sed文檔中,雖然沒有將這些工作機制詳細描述,但各選項各命令說明中,在需要的時候都提到了這些細節,而我所做的只不過是將其系統性地描述出來、做一些深入,再給幾個示例解釋,並使用通俗易懂的迴圈結構來展示這些機制。

最後,驗證前文"n"和"N"命令留下的疑問:"n"和"N"命令是先判斷是否還有下一行,再自動輸出的。也就是證明下麵兩個判斷語句採用前者還是後者的問題。

 ADDR1,ADDR2{              # "n" command
     if [ "$line" -ne "$last_line_num" ];then
         auto_print;
         remove_pattern_space;
         read next_line to pattern_space;
     else
         auto_print;
         remove_pattern_space;
         exit;
     fi
 }; 

 ADDR1,ADDR2{              # "n" command
         auto_print;
         remove_pattern_space;
         [ "$line" -ne "$last_line_num" ] && read next_line to pattern_space || exit;
 }; 

雖然後者看上去代碼更優化,但事實上採用的是前者。要證明這一點不太容易,好在我想出了下麵的方法來證明。下麵的示例中使用的是"N",它和"n"在判斷邏輯上的行為是一致的。

[root@xuexi ~]# echo -e "abc\ndef\nxyz" | sed '/def/{a\   
haha
;N}'

abc
haha
def
xyz

[root@xuexi ~]# echo -e "abc\ndef" | sed '/def/{a\     
haha
;N}'

abc
def
haha

在以上兩個命令中,第一個命令"haha"是插入在匹配行"def"的前面,而第二個命令則是插入在"def"的後面。似乎根據"a"命令的作用來說,第二個命令才是意料之中的結果。

首先,解釋第一個命令為何"haha"會出現在匹配行"def"的前面。當sed讀取的行能匹配"def"時,將隊列化"haha"到記憶體中,併在有輸出流的時候追加到輸出流尾部。由於這裡的輸出流來自於"a"命令後的"N"命令,該命令將模式空間鎖住,使得隱含動作自動輸出的內容為空,但隊列化的內容還是發現了這個空輸出流,於是追加在這個空流的尾部。再之後,"N"將下一行讀取到模式空間中,到了SCRIPT迴圈的結尾,再次自動輸出,此時模式空間有兩行:"def" 和 "xyz",這兩行同時被輸出。顯然,在"def"被輸出之前,隊列化的內容已經隨著空輸出流而輸出了。

再解釋為何第二個命令的結果中"haha"在"def"之後,這也是待證明的疑問。第二個命令中,由於"def"已經是輸入流的最後一行,"N"已經無法再讀取下一行,於是輸出當前模式空間內容並退出sed程式。假設,"n"或"N"命令是先自動輸出、清空模式空間內容,再判斷是否有下一行可讀取的,那麼在判斷之前自動輸出時,"N"不知道是否還有下一行,於是隊列化的內容應該同第一個命令一樣,插入在"def"之前。但結果卻並非如此。如果先判斷是否有下一行可供讀取,再輸出、清空模式空間,則隊列化內容是跟隨著"N"退出sed程式前輸出的,這正符合第二個命令的結果。


如果覺得這"花拳繡腿"篇還不錯,還想修煉更高深的sed武功,請看sed修煉系列(二):武功心法(info sed翻譯+註解)

回到系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7048359.html

轉載請註明出處:http://www.cnblogs.com/f-ck-need-u/p/7488469.html

註:若您覺得這篇文章還不錯請點擊下右下角的推薦,有了您的支持才能激發作者更大的寫作熱情,非常感謝!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、表格 表一 emp 表二 dept 表三 salgrade; 表四 年度利潤表 二、習題 1. 查出至少有一個員工的部門。顯示部門編號、部門名稱、部門位置、部門人數。 2. 列出所有員工的姓名及其直接上級的姓名。 3. 列出受雇日期早於直接上級的所有員工的編號、姓名、部門名稱。 4. 列出部門名 ...
  • 什麼是Database,什麼是Schema,什麼是Table,什麼是列,什麼是行,什麼是User? 我們可以把Database看作是一個大倉庫,倉庫分了很多很多的房間,Schema就是其中的房間,一個Schema代表一個房間。 Table可以看作是每個Schema中的床,Table(床)就被放入每個 ...
  • 一、emp表 二、練習 1. 查詢出部門編號為30的所有員工2. 所有銷售員的姓名、編號和部門編號。3. 找出獎金高於工資的員工。4. 找出獎金高於工資60%的員工。5. 找出部門編號為10中所有經理,和部門編號為20中所有銷售員的詳細資料。 6. 找出部門編號為10中所有經理,部門編號為20中所有 ...
  • man 查看命令幫助,命令的詞典,更複雜的還有info,但不常用。 help 查看Linux內置命令的幫助,比如cd命令。 文件和目錄操作命令(18個) ls 全拼list,功能是列出目錄的內容及其內容屬性信息。 cd 全拼change directory,功能是從當前工作目錄切換到指定的工作目錄。 ...
  • 原文:http://blog.csdn.net/code_better/article/details/54898098 ...
  • 第1章 虛擬機安裝 1.1 鏡像下載 1.1.1 新版本下載 http://mirrors.aliyun.com #阿裡雲官方鏡像站點 1.1.2 舊版本下載 http://vault.centos.org/ #vault 電子倉庫 儘量使用種子文件下載,速度較快 1.2 VMware新建虛擬機 1 ...
  • linux內核中有多種內核鎖,內核鎖的作用是: 多核處理器下,會存在多個進程處於內核態的情況,而在內核態下,進程是可以訪問所有內核數據的,因此要對共用數據進行保護,即互斥處理; linux內核鎖機制有信號量、互斥鎖、自旋鎖還有原子操作。 一、信號量(struct semaphore): 是用來解決進 ...
  • 大部分Ubuntu系統預設python版本都是python2.x系列,但最新版本已經是3.5和3.6了,軟體系統跟著版本走總是有諸多好處的,所以,以下是作者在修改Ubantu預設python版本時的一點經驗: 1、終端輸入:python -V查看預設版本(一般都為python2.x系列) 2、別急著 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...