鏡像下載、功能變數名稱解析、時間同步請點擊 阿裡雲開源鏡像站 準備 作為一個經常在伺服器上游走的後端,需要熟悉不少命令行操作。其中,grep、sed、awk號稱"linux三劍客",使用頻繁,功能強大,本文通過一個實例演示下基本用法。首先準備一個文本文件,命名為text.txt,內容如下: cat text ...
鏡像下載、功能變數名稱解析、時間同步請點擊 阿裡雲開源鏡像站
準備
作為一個經常在伺服器上游走的後端,需要熟悉不少命令行操作。其中,grep、sed、awk號稱"linux三劍客",使用頻繁,功能強大,本文通過一個實例演示下基本用法。首先準備一個文本文件,命名為text.txt,內容如下:
cat text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
grep
首先,最簡單的是grep。經常用來過濾查看日誌。對於grep需要知道如下幾個常用的命令選項:
-n
額外輸出行號。例如過濾出每一行包含"青"的記錄:
grep -n "青" text.txt
1:1 province 省份 青海省
3:3 subject_no 主體備案號 青ICP備11000289號
4:4 addr 註冊地址 青海省西寧市城中區南關街138號
7:7 site_no 網站備案/許可證號 青ICP備11000289號-2
-v
排除匹配的行。例如排除包含"青"的行記錄:
grep -v '青' text.txt
2 domain 功能變數名稱或者ip tianfengyinlou.cn
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
-E
支持擴展正則匹配。grep的時候,我們可以按照正則表達式來進行匹配,但在需要擴展正則匹配時,要通過-E指定才能生效。常見的或操作,比如篩選包含"青海省"或者"青ICP"的行記錄,不指定-E是無法獲得想要的結果的。
grep -E '青海省|青ICP' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
-l
只輸出有匹配行的文件名。有時候,我們並不需要輸出匹配的行記錄,僅僅只是需要知道匹配到了行記錄的文件名:
grep -l 青 text.txt
text.txt
-R
遞歸匹配目錄中的文件內容。有時候,在一個目錄中我們並不知道哪個文件內容包含我們想要的結果,此時,可以查找整個目錄,輸出匹配的文件名以及行記錄:
grep -R 青海 ./DevMisc
# ...
./DevMisc/linux三劍客.md:1 province 省份 青海省
./DevMisc/linux三劍客.md:4 addr 註冊地址 青海省西寧市城中區南關街138號
./DevMisc/text.txt:1 province 省份 青海省
./DevMisc/text.txt:4 addr 註冊地址 青海省西寧市城中區南關街138號
結合-l參數就可以知道一個目錄中有哪些文件包含了匹配項:
grep -Rl 青 ./DevMisc
./DevMisc/linux三劍客.md
./DevMisc/text.txt
-A
通過-A(after)指定輸出匹配行後的額外行數。例如,想要額外輸出包含"青"的行記錄後一行,可以指定-A1:
grep -A1 青 text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
--
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
--
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
-B
通過-B(before)指定輸出匹配行前的額外行數。例如,想要額外輸出包含"青"的行記錄前一行,可以指定-B1:
grep -B1 青 text.txt
1 province 省份 青海省
--
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
--
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
-C
通過-C指定輸出匹配行前後的額外行數。例如,想要額外輸出包含"青"的行記錄前後各一行,可以指定-C1:
grep -C1 青 text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
--
--
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
--
--
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
sed
查找
sed的各項操作需要指定一個特定的動作。查找需要指定一個動作為p(print),例如,列印出第三行的記錄,需要指定行號加動作3p:
sed -n 3p text.txt
3 subject_no 主體備案號 青ICP備11000289號
這裡必須指定一個選項-n。因為sed的預設行為是遍歷文本文件的每一行並輸出每一行,假如不帶-n選項,第三行會輸出兩次=預設輸出一次+命令行指定輸出一次:
sed 3p text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
所以-n的作用是取消sed的預設輸出行為, 一般都只與p組合使用。利用sed的預設輸出行為,我們可以模擬複製每一行的操作,有時候在特定場景下非常有用:
sed p text.txt
1 province 省份 青海省
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
sed不僅可以輸出指定的某一行,還可以按行號範圍進行輸出,例如輸出1-5行:
sed -n 1,5p text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
sed還可以按照正則匹配來輸出特定的行。格式為/xx/p, 例如,查找包含"青海省"的行記錄:
sed -n '/青海省/p' text.txt
1 province 省份 青海省
4 addr 註冊地址 青海省西寧市城中區南關街138號
查找包含數字0到6的行記錄:
sed -n '/[0-6]/p' text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
查找以0結尾的行記錄:
sed -n '/0$/p' text.txt
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
如果想要支持擴展正則匹配,需要通過-r來指定,例如查找每一行包含"青海省"或者"青"的記錄:
sed -nr '/青海省|青/p' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
sed正則匹配也支持按範圍輸出,格式為/xx/,/xx/p。例如查找包含"domain"的行到包含"addr"的行記錄:
sed -n '/domain/,/addr/p' text.txt
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
刪除
# 刪除第三行
sed 3d text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
# 刪除包含青的行
sed '/青/d' text.txt
2 domain 功能變數名稱或者ip tianfengyinlou.cn
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
# 更改text.txt
cat text.txt ysj@yangsj2-knownsec
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
#5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
#6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
# 刪除空行和註釋行
sed -r '/^$|#/d' text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
增加
sed的增加動作有三種:
- i:在指定行的上方增加一行
- a: 在指定行的下方增加一行
- c: 在指定行的地方增加一行,原有行會被覆蓋
上述三種增加行為示例為:
註意:示例的增加行為在mac上會報錯,可能在mac上用法不一致。
# 在第3行上方增加一行記錄
sed '3i insert oneline above 3rd line' text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
insert oneline above 3rd line
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
# 在第3行下方增加一行記錄
sed '3a insert oneline after 3rd line' text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
insert oneline after 3rd line
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
# 在第3行創建一行記錄,原記錄被替換
sed '3c create oneline at 3rd line' text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
create oneline at 3rd line
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
修改
上述所有的操作輸出均沒有改變文件自身的內容。想要使得操作改變文件自身的內容,需要指定選項-i。指定-i的操作需要格外小心。
例如,在文件中第一行插入一行記錄:
sed -i '1i add oneline above first line' text.txt
cat text.txt
add oneline above first line
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
sed的刪除動作為d(delete),例如刪除文件中的第一行:
# 刪除增加的第一行
sed -i 1d text.txt
cat text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
當然,我們也有辦法做安全的刪除操作,即將-i換成-i.bak 可以在真實改動文件內容前,備份文件。但是這個操作一般不適合應用在大文件上,因為備份很慢。
# 刪除第一行並備份
sed -i.bak 1d text.txt
cat text.txt
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
cat text.txt.bak
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
替換
sed可以對文件內容進行替換(substitute),格式為使用任意三個相同的符號,如三個斜線s/xx/yy/g、三個#號s#xx#yy#g、三個@符號s@xx@yy@g等,效果是將xx替換為yy。
這裡的符號選擇是任意的,可以是三個1,三個2都行。常用的是上述三種,因為和文件內容重合度最小,具體使用哪種,需要根據文件內容選擇。如果文件內容本身包含了/,則不方便使用三個斜線來操作。
# 將"青" 替換為"蜀"
sed 's/青/蜀/g' text.txt
1 province 省份 蜀海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 蜀ICP備11000289號
4 addr 註冊地址 蜀海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 蜀ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
# 將第三行的青替換為蜀
sed '3s/青/蜀/g' text.txt
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 蜀ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
# 把所有數字替換為x
sed -r 's/[0-9]/x/g' text.txt
x province 省份 青海省
x domain 功能變數名稱或者ip tianfengyinlou.cn
x subject_no 主體備案號 青ICP備xxxxxxxx號
x addr 註冊地址 青海省西寧市城中區南關街xxx號
x check_time 備案時間, 時間對象 xxxx-xx-xx xx:xx:xx
x update_time 更新時間, 毫秒級時間戳 xxxxxxxxxxxxx
x site_no 網站備案/許可證號 青ICP備xxxxxxxx號-x
x site_url 站點/網站首頁網址 www.tianfengyinlou.cn
x comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
g是全局(gloabal)替換的意思,如果不要g,則只會替換匹配到的第一項:
# 把每一行的第一個數字替換為x
sed -r 's/[0-9]/x/' text.txt
x province 省份 青海省
x domain 功能變數名稱或者ip tianfengyinlou.cn
x subject_no 主體備案號 青ICP備11000289號
x addr 註冊地址 青海省西寧市城中區南關街138號
x check_time 備案時間, 時間對象 2011-06-23 16:38:00
x update_time 更新時間, 毫秒級時間戳 1607414120745
x site_no 網站備案/許可證號 青ICP備11000289號-2
x site_url 站點/網站首頁網址 www.tianfengyinlou.cn
x comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
反向引用
反向引用就是利用正則的組匹配來以組為單位進行替換。
# 例如匹配所有的英文詞句([a-z_.]+),然後把他們用<>括起來, \1表示第一組,這裡只有一個組匹配
sed -r 's/([a-z_.]+)/<\1>/g' text.txt
1 <province> 省份 青海省
2 <domain> 功能變數名稱或者<ip> <tianfengyinlou.cn>
3 <subject_no> 主體備案號 青ICP備11000289號
4 <addr> 註冊地址 青海省西寧市城中區南關街138號
5 <check_time> 備案時間, 時間對象 2011-06-23 16:38:00
6 <update_time> 更新時間, 毫秒級時間戳 1607414120745
7 <site_no> 網站備案/許可證號 青ICP備11000289號-2
8 <site_url> 站點/網站首頁網址 <www.tianfengyinlou.cn>
9 <comp_name> 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
awk
取行
awk可以通過NR(Number of Record) 指定行號,輸出特定的行:
# 輸出第三行
awk 'NR==3' text.txt
3 subject_no 主體備案號 青ICP備11000289號
也可以按行號範圍輸出:
# 輸出第三到第六行
awk 'NR==3, NR==6' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
# 也可以通過比較指定輸出範圍
# 輸出3到4行
awk 'NR>=3 && NR<5' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
第二個NR如果是個無效的行號值,則預設取出指定起始行之後所有的行記錄:
# 輸出第三行之後的所有行
awk 'NR==3, NR==xx' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
取行操作依然支持正則匹配:
# 輸出包含青的行
awk '/青/' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
# 輸出以"號"結尾的行
awk '/號$/' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
# 輸出包含domain到包含addr的行
awk '/domain/, /addr/' text.txt
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
取列
awk可以使用{print $列號} 取出列值:
# 例如,取出第二列的值
awk '{print $2}' text.txt
province
domain
subject_no
addr
check_time
update_time
site_no
site_url
comp_name
# 取出第2列及最後一列NF(Number of Fields)的值
awk '{print $2,$NF}' text.txt
province 青海省
domain tianfengyinlou.cn
subject_no 青ICP備11000289號
addr 青海省西寧市城中區南關街138號
check_time 16:38:00
update_time 1607414120745
site_no 青ICP備11000289號-2
site_url www.tianfengyinlou.cn
comp_name 西寧天豐銀樓金銀珠寶有限公司
# 使用column -t 對齊輸出
awk '{print $2,$NF}' text.txt | column -t
province 青海省
domain tianfengyinlou.cn
subject_no 青ICP備11000289號
addr 青海省西寧市城中區南關街138號
check_time 16:38:00
update_time 1607414120745
site_no 青ICP備11000289號-2
site_url www.tianfengyinlou.cn
comp_name 西寧天豐銀樓金銀珠寶有限公司
awk取列時,預設是空格為分隔符,可以通過-F指定分隔符,例如,第7-8行:
awk "NR==7,NR==8" text.txt
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
取出第7、8行後,按/進行劃分,取出劃分後的第二列:
awk "NR==7,NR==8" text.txt | awk -F/ '{print $2}'
許可證號 青ICP備11000289號-2
網站首頁網址 www.tianfengyinlou.cn
-F 可以通過[]正則指定多個分隔符:
# 按空格和/ 進行分隔, 取出1到4列
awk "NR==7,NR==8" text.txt | awk -F'[ /]+' '{print $1,$2,$3,$4}'
7 site_no 網站備案 許可證號
8 site_url 站點 網站首頁網址
精確取行列
awk可以精確取出某一行某一列的值。一些用例如:
# ~ 表示包含, !~ 表示不包含
# 取出第四列包含"青"的行
awk '$4 ~ /青/' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
# 取出第四列以"號"結尾的行,並輸出最後一列
awk '$4 ~ /號$/{print $NF}' text.txt
青ICP備11000289號
青海省西寧市城中區南關街138號
# 取出第2列以d開始,到第四列以號結尾的行記錄
awk '$2 ~ /^d/, $4 ~/號$/' text.txt
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
BEGIN
awk可以使用BEGIN在操作文件內容前執行一些命令:
# 列如輸出表頭
awk 'BEGIN{print "序號","名稱","含義","示例"} {print $1,$2,$3,$4}' text.txt | column -t
序號 名稱 含義 示例
1 province 省份 青海省
2 domain 功能變數名稱或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間對象
6 update_time 更新時間, 毫秒級時間戳
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
END
awk可以使用END在操作文件內容後執行一些命令:
# 通常用於做統計, 例如對第一列求和
awk '{sum+=$1} END{print sum}' text.txt
45
使用小結
- grep、sed、awk都可以過濾行記錄,但過濾行記錄時優先選擇grep,其過濾行的效率最高。
- sed主要用於對文件內容做出各種修改(增加、替換等)。
- awk主要用於對文件內容取行列操作。
本文轉自:https://juejin.cn/post/7100556924524953614