linux三劍客(grep、sed、awk)基本使用

来源:https://www.cnblogs.com/helong-123/archive/2022/06/23/16405495.html
-Advertisement-
Play Games

鏡像下載、功能變數名稱解析、時間同步請點擊 阿裡雲開源鏡像站 準備 作為一個經常在伺服器上游走的後端,需要熟悉不少命令行操作。其中,grep、sed、awk號稱"linux三劍客",使用頻繁,功能強大,本文通過一個實例演示下基本用法。首先準備一個文本文件,命名為text.txt,內容如下: cat text ...


鏡像下載、功能變數名稱解析、時間同步請點擊 阿裡雲開源鏡像站

準備

作為一個經常在伺服器上游走的後端,需要熟悉不少命令行操作。其中,grep、sed、awk號稱"linux三劍客",使用頻繁,功能強大,本文通過一個實例演示下基本用法。首先準備一個文本文件,命名為text.txt,內容如下:

cat text.txt
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址   青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

grep

首先,最簡單的是grep。經常用來過濾查看日誌。對於grep需要知道如下幾個常用的命令選項:

-n

額外輸出行號。例如過濾出每一行包含"青"的記錄:

grep -n "青" text.txt                                                                                              
1:1     province    省份  青海省
3:3     subject_no  主體備案號   青ICP備11000289號
4:4     addr    註冊地址    青海省西寧市城中區南關街138號
7:7     site_no 網站備案/許可證號   青ICP備11000289號-2

-v

排除匹配的行。例如排除包含"青"的行記錄:

grep -v '青' text.txt                                                                                              
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

-E

支持擴展正則匹配。grep的時候,我們可以按照正則表達式來進行匹配,但在需要擴展正則匹配時,要通過-E指定才能生效。常見的或操作,比如篩選包含"青海省"或者"青ICP"的行記錄,不指定-E是無法獲得想要的結果的。

grep -E '青海省|青ICP' text.txt                                                                                    
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

-l

只輸出有匹配行的文件名。有時候,我們並不需要輸出匹配的行記錄,僅僅只是需要知道匹配到了行記錄的文件名:

grep -l 青 text.txt                                                                                         
text.txt

-R

遞歸匹配目錄中的文件內容。有時候,在一個目錄中我們並不知道哪個文件內容包含我們想要的結果,此時,可以查找整個目錄,輸出匹配的文件名以及行記錄:

grep -R 青海 ./DevMisc
# ... 
./DevMisc/linux三劍客.md:1     province     省份                   青海省
./DevMisc/linux三劍客.md:4     addr         註冊地址                青海省西寧市城中區南關街138號
./DevMisc/text.txt:1     province    省份  青海省
./DevMisc/text.txt:4     addr    註冊地址    青海省西寧市城中區南關街138號

結合-l參數就可以知道一個目錄中有哪些文件包含了匹配項:

grep -Rl 青 ./DevMisc                                                                                                  
./DevMisc/linux三劍客.md
./DevMisc/text.txt

-A

通過-A(after)指定輸出匹配行後的額外行數。例如,想要額外輸出包含"青"的行記錄後一行,可以指定-A1:

grep -A1 青 text.txt                                                                                               
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
--
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
--
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn

-B

通過-B(before)指定輸出匹配行前的額外行數。例如,想要額外輸出包含"青"的行記錄前一行,可以指定-B1:

grep -B1 青 text.txt                                                                                               
1     province    省份  青海省
--
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
--
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2

-C

通過-C指定輸出匹配行前後的額外行數。例如,想要額外輸出包含"青"的行記錄前後各一行,可以指定-C1:

grep -C1 青 text.txt                                                                                               
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
--
--
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
--
--
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn

sed

查找

sed的各項操作需要指定一個特定的動作。查找需要指定一個動作為p(print),例如,列印出第三行的記錄,需要指定行號加動作3p:

sed -n 3p text.txt 
3     subject_no  主體備案號   青ICP備11000289號

這裡必須指定一個選項-n。因為sed的預設行為是遍歷文本文件的每一行並輸出每一行,假如不帶-n選項,第三行會輸出兩次=預設輸出一次+命令行指定輸出一次:

sed 3p text.txt
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址   青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

所以-n的作用是取消sed的預設輸出行為, 一般都只與p組合使用。利用sed的預設輸出行為,我們可以模擬複製每一行的操作,有時候在特定場景下非常有用:

sed p text.txt
1     province    省份  青海省
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址   青海省西寧市城中區南關街138號
4     addr    註冊地址   青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

sed不僅可以輸出指定的某一行,還可以按行號範圍進行輸出,例如輸出1-5行:

sed -n 1,5p text.txt                                                                                           
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00

sed還可以按照正則匹配來輸出特定的行。格式為/xx/p, 例如,查找包含"青海省"的行記錄:

sed -n '/青海省/p' text.txt                                                                                 
1     province    省份  青海省
4     addr    註冊地址    青海省西寧市城中區南關街138號

查找包含數字0到6的行記錄:

sed -n '/[0-6]/p' text.txt                                                                                         
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2

查找以0結尾的行記錄:

sed -n '/0$/p' text.txt                                                                                           
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00

如果想要支持擴展正則匹配,需要通過-r來指定,例如查找每一行包含"青海省"或者"青"的記錄:

sed -nr '/青海省|青/p' text.txt                                                                                   
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

sed正則匹配也支持按範圍輸出,格式為/xx/,/xx/p。例如查找包含"domain"的行到包含"addr"的行記錄:

sed -n '/domain/,/addr/p' text.txt
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號

刪除

# 刪除第三行
sed 3d text.txt                                                                                                    
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 刪除包含青的行
sed '/青/d' text.txt                                                                                               
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 更改text.txt
cat text.txt                                                                                                       ysj@yangsj2-knownsec
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn

3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
#5     check_time  備案時間, 時間對象  2011-06-23 16:38:00

#6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 刪除空行和註釋行
sed -r '/^$|#/d' text.txt                                                                                          
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

增加

sed的增加動作有三種:

  • i:在指定行的上方增加一行
  • a: 在指定行的下方增加一行
  • c: 在指定行的地方增加一行,原有行會被覆蓋

上述三種增加行為示例為:

註意:示例的增加行為在mac上會報錯,可能在mac上用法不一致。

# 在第3行上方增加一行記錄
sed '3i insert oneline above 3rd line' text.txt 
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
insert oneline above 3rd line
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 在第3行下方增加一行記錄
sed '3a insert oneline after 3rd line' text.txt 
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
insert oneline after 3rd line
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 在第3行創建一行記錄,原記錄被替換
sed '3c create oneline at 3rd line' text.txt 
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
create oneline at 3rd line
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

修改

上述所有的操作輸出均沒有改變文件自身的內容。想要使得操作改變文件自身的內容,需要指定選項-i。指定-i的操作需要格外小心。

例如,在文件中第一行插入一行記錄:

sed -i '1i add oneline above first line' text.txt
cat text.txt 
add oneline above first line
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

sed的刪除動作為d(delete),例如刪除文件中的第一行:

# 刪除增加的第一行
sed -i 1d text.txt 
cat text.txt 
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

當然,我們也有辦法做安全的刪除操作,即將-i換成-i.bak 可以在真實改動文件內容前,備份文件。但是這個操作一般不適合應用在大文件上,因為備份很慢。

# 刪除第一行並備份
sed -i.bak 1d text.txt 
cat text.txt
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司
cat text.txt.bak 
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

替換

sed可以對文件內容進行替換(substitute),格式為使用任意三個相同的符號,如三個斜線s/xx/yy/g、三個#號s#xx#yy#g、三個@符號s@xx@yy@g等,效果是將xx替換為yy。

這裡的符號選擇是任意的,可以是三個1,三個2都行。常用的是上述三種,因為和文件內容重合度最小,具體使用哪種,需要根據文件內容選擇。如果文件內容本身包含了/,則不方便使用三個斜線來操作。

# 將"青" 替換為"蜀"
sed 's/青/蜀/g' text.txt                                                                                           
1     province    省份  蜀海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   蜀ICP備11000289號
4     addr    註冊地址    蜀海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   蜀ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 將第三行的青替換為蜀
sed '3s/青/蜀/g' text.txt                                                                                          
1     province    省份  青海省
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   蜀ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 把所有數字替換為x
sed -r 's/[0-9]/x/g' text.txt                                                                                      
x     province    省份  青海省
x     domain  功能變數名稱或者ip  tianfengyinlou.cn
x     subject_no  主體備案號   青ICP備xxxxxxxx號
x     addr    註冊地址    青海省西寧市城中區南關街xxx號
x     check_time  備案時間, 時間對象  xxxx-xx-xx xx:xx:xx
x     update_time 更新時間, 毫秒級時間戳    xxxxxxxxxxxxx
x     site_no 網站備案/許可證號   青ICP備xxxxxxxx號-x
x     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
x     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

g是全局(gloabal)替換的意思,如果不要g,則只會替換匹配到的第一項:

# 把每一行的第一個數字替換為x
sed -r 's/[0-9]/x/' text.txt                                                                                      
x     province    省份  青海省
x     domain  功能變數名稱或者ip  tianfengyinlou.cn
x     subject_no  主體備案號   青ICP備11000289號
x     addr    註冊地址    青海省西寧市城中區南關街138號
x     check_time  備案時間, 時間對象  2011-06-23 16:38:00
x     update_time 更新時間, 毫秒級時間戳    1607414120745
x     site_no 網站備案/許可證號   青ICP備11000289號-2
x     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
x     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

反向引用

反向引用就是利用正則的組匹配來以組為單位進行替換。

# 例如匹配所有的英文詞句([a-z_.]+),然後把他們用<>括起來, \1表示第一組,這裡只有一個組匹配
sed -r 's/([a-z_.]+)/<\1>/g' text.txt                                                                              
1     <province>    省份  青海省
2     <domain>  功能變數名稱或者<ip>  <tianfengyinlou.cn>
3     <subject_no>  主體備案號   青ICP備11000289號
4     <addr>    註冊地址    青海省西寧市城中區南關街138號
5     <check_time>  備案時間, 時間對象  2011-06-23 16:38:00
6     <update_time> 更新時間, 毫秒級時間戳    1607414120745
7     <site_no> 網站備案/許可證號   青ICP備11000289號-2
8     <site_url>    站點/網站首頁網址   <www.tianfengyinlou.cn>
9     <comp_name>   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

awk

取行

awk可以通過NR(Number of Record) 指定行號,輸出特定的行:

# 輸出第三行
awk 'NR==3' text.txt                                                                                               
3     subject_no  主體備案號   青ICP備11000289號

也可以按行號範圍輸出:

# 輸出第三到第六行
awk 'NR==3, NR==6' text.txt                                                                                        
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745

# 也可以通過比較指定輸出範圍
# 輸出3到4行
awk 'NR>=3 && NR<5' text.txt                                                                                       
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號

第二個NR如果是個無效的行號值,則預設取出指定起始行之後所有的行記錄:

# 輸出第三行之後的所有行
awk 'NR==3, NR==xx' text.txt                                                                                       
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間對象  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

取行操作依然支持正則匹配:

# 輸出包含青的行
awk '/青/' text.txt                                                                                                
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

# 輸出以"號"結尾的行
awk '/號$/' text.txt                                                                                               
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號

# 輸出包含domain到包含addr的行
awk '/domain/, /addr/' text.txt                                                                                    
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號

取列

awk可以使用{print $列號} 取出列值:

# 例如,取出第二列的值
awk '{print $2}' text.txt                                                                                      
province
domain
subject_no
addr
check_time
update_time
site_no
site_url
comp_name

# 取出第2列及最後一列NF(Number of Fields)的值
awk '{print $2,$NF}' text.txt                                                                                      
province 青海省
domain tianfengyinlou.cn
subject_no 青ICP備11000289號
addr 青海省西寧市城中區南關街138號
check_time 16:38:00
update_time 1607414120745
site_no 青ICP備11000289號-2
site_url www.tianfengyinlou.cn
comp_name 西寧天豐銀樓金銀珠寶有限公司

# 使用column -t 對齊輸出
awk '{print $2,$NF}' text.txt | column -t                                                                          
province     青海省
domain       tianfengyinlou.cn
subject_no   青ICP備11000289號
addr         青海省西寧市城中區南關街138號
check_time   16:38:00
update_time  1607414120745
site_no      青ICP備11000289號-2
site_url     www.tianfengyinlou.cn
comp_name    西寧天豐銀樓金銀珠寶有限公司

awk取列時,預設是空格為分隔符,可以通過-F指定分隔符,例如,第7-8行:

awk "NR==7,NR==8" text.txt                                                                                         
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn

取出第7、8行後,按/進行劃分,取出劃分後的第二列:

awk "NR==7,NR==8" text.txt | awk -F/ '{print $2}'                                                                  
許可證號   青ICP備11000289號-2
網站首頁網址   www.tianfengyinlou.cn

-F 可以通過[]正則指定多個分隔符:

# 按空格和/ 進行分隔, 取出1到4列
awk "NR==7,NR==8" text.txt | awk -F'[ /]+' '{print $1,$2,$3,$4}'                                                   
7 site_no 網站備案 許可證號
8 site_url 站點 網站首頁網址

精確取行列

awk可以精確取出某一行某一列的值。一些用例如:

# ~ 表示包含, !~ 表示不包含
# 取出第四列包含"青"的行
awk '$4 ~ /青/' text.txt                                                                                       
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    註冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

# 取出第四列以"號"結尾的行,並輸出最後一列
awk '$4 ~ /號$/{print $NF}' text.txt                                                                               
青ICP備11000289號
青海省西寧市城中區南關街138號

# 取出第2列以d開始,到第四列以號結尾的行記錄
awk '$2 ~ /^d/, $4 ~/號$/' text.txt                                                                                
2     domain  功能變數名稱或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號

BEGIN

awk可以使用BEGIN在操作文件內容前執行一些命令:

# 列如輸出表頭
awk 'BEGIN{print "序號","名稱","含義","示例"} {print $1,$2,$3,$4}' text.txt | column -t                            
序號  名稱          含義                   示例
1     province     省份                   青海省
2     domain       功能變數名稱或者ip              tianfengyinlou.cn
3     subject_no   主體備案號              青ICP備11000289號
4     addr         註冊地址                青海省西寧市城中區南關街138號
5     check_time   備案時間,               時間對象
6     update_time  更新時間,               毫秒級時間戳
7     site_no      網站備案/許可證號        青ICP備11000289號-2
8     site_url     站點/網站首頁網址        www.tianfengyinlou.cn
9     comp_name    主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

END

awk可以使用END在操作文件內容後執行一些命令:

# 通常用於做統計, 例如對第一列求和
awk '{sum+=$1} END{print sum}' text.txt                                                                            
45

使用小結

  • grep、sed、awk都可以過濾行記錄,但過濾行記錄時優先選擇grep,其過濾行的效率最高。
  • sed主要用於對文件內容做出各種修改(增加、替換等)。
  • awk主要用於對文件內容取行列操作。

本文轉自:https://juejin.cn/post/7100556924524953614


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 人生苦短,我用Python~某寶秒殺,用毫秒級的精準度來搶購!你還在為各種活動秒殺 搶不過別人而煩惱嗎?今天出一期 利用Python搶購秒殺商品的文章 目錄 ​ 項目環境 某寶搶購流程分析 程式實現思路 代碼實踐與梳理 項目環境 ​ 操作系統:Windows 10 開發環境:python3.7 ID ...
  • #數據類型的擴展 P24 ##1.整數擴展 ###進位: 二級制:0b 十進位:無 八進位:0 十六進位:0x 代碼: int i = 10; int i2 = 010; int i3 = 0x10; System.out.println(i); System.out.println(i2); Sy ...
  • 前言 相比大家都聽過自動化生產線、自動化辦公等辭彙,在沒有人工干預的情況下,機器可以自己完成各項任務,這大大提升了工作 效率。 編程世界里有各種各樣的自動化腳本,來完成不同的任務。 尤其Python非常適合編寫自動化腳本,因為它語法簡潔易懂,而且有豐富的第三方工具庫。 這次我們使用Python來實現 ...
  • 1. JVM的位置 JVM是運行在操作系統之上的。 2. JVM體繫結構 3. 類載入器 類載入器的作用:載入class文件 載入器:①.ApplicationClassLoader應用程式類載入器,主要負責載入當前應用classpath路徑下的所有類; ②.ExtentionClassLoader ...
  • 在進行項目開發的時候,剛好需要用到對字元串表達式進行求值的處理場景,因此尋找了幾個符合要求的第三方組件LambdaParser、DynamicExpresso、Z.Expressions,它們各自功能有所不同,不過基本上都能滿足要求。它們都可以根據相關的參數進行字元串表達式的求值,本篇隨筆介紹它們三... ...
  • 搭建yum倉庫需要兩種資源: rpm包 rpm包的元數據(repodata) 搭建好倉庫後需要使用三種網路協議共用出來 http或https ftp 範例: 使用http協議搭建私有倉庫 (本示例使用光碟作為源) #倉庫伺服器配置 yum -y install httpd systemctl ena ...
  • pwd 顯示工作路徑 shutdown -h now 關閉系統 /halt 關閉系統 shutdown -r now 重啟 / reboot 重啟 1、cd命令:這是一個非常基本,也是大家經常需要使用的命令,它用於切換當前目錄,它的參數是要切換到的目錄的路徑,可以是絕對路徑,也可以是相對路徑。如: ...
  • 環境:CentOS/Linux FFmpeg官網:http://www.ffmpeg.org 將安裝到目錄/usr/local/下 mkdir /usr/local/ffmpeg cd /usr/local/ffmpeg wget http://ffmpeg.org/releases/ffmpeg- ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...