Linux 文本處理三劍客之grep

来源:https://www.cnblogs.com/xiaoshiwang/archive/2019/12/23/12084180.html
-Advertisement-
Play Games

文本處理都要使用正則表達式,正則表達式有: 基本正則表達式: 或者 擴展正則表達式: 或者 Linux 文本處理三劍客: sed:stream editor,流編輯工具程式。 awk:linux上是gawk,格式化文本工具程式。 grep:Global search Regular expressi ...


文本處理都要使用正則表達式,正則表達式有:

  • 基本正則表達式:grep或者egrep -G
  • 擴展正則表達式:egreo或者grep -E

Linux 文本處理三劍客:

  • sed:stream editor,流編輯工具程式。

  • awk:linux上是gawk,格式化文本工具程式。

  • grep:Global search Regular expression and print out the line

    • 使用基本正則表達式的命令:
      • grep
      • egrep -G
      • fgrep -G
    • 使用擴展正則表達式的命令:
      • grep -E
      • egrep
      • fgrep -E
    • 不使用正則表達式的命令,速度會快得多。
      • fgrep

    文本搜索工具,根據用戶指定的搜索條件,對目標文本逐行掃描,列印出匹配的所有行。

    搜索條件:就是用正則表達式來表示。

一,grep使用介紹:

  • 語法:

    • grep [OPTIONS] PATTERN [FILE...]
    • grep [OPTIONS][-e PATTERN | -f FILE] [FILE...]
  • 最基本的例子:查找"UUID",在/etc/fstab

    # grep "UUID" /etc/fstab
    UUID=3d3b316a-529e-484a-9895-e785fdde5365 /boot         xfs     defaults        0 0
  • 搜索時,搜索條件的字母是區分大小寫的,讓它不區分大小寫的選項:-i

    # grep "UUiD" /etc/fstab
    # echo $?
    1
    # grep -i "UUiD" /etc/fstab
    UUID=3d3b316a-529e-484a-9895-e785fdde5365 /boot         xfs     defaults        0 0
  • 不讓它顯示匹配到的一整行,只顯示匹配但的文本內容本身:-o

    # grep -o "UUID" /etc/fstab
    UUID
  • 讓它顯示沒有匹配到的行:-v

    # grep -v "UUID" /etc/fstab
    /dev/mapper/centos-root /                       xfs     defaults        0 0
  • 不顯示匹配到的內容,只想知道是否匹配的結果:-q

    # grep -q "UUID" /etc/fstab
    # echo $?
    0
    # grep -q "UUIDa" /etc/fstab
    # echo $?
    1
  • 使用擴展正則表達式:-E

  • 顯示匹配到的行的行號:-n

    # grep -n "UUID" /etc/fstab
    10:UUID=3d3b316a-529e-484a-9895-e785fdde5365 /boot         xfs     defaults        0 0
  • 顯示匹配到行的後面幾行:-A #。#是數字

    # grep -nA1 gentoo /etc/passwd
    49:gentoo:x:1004:1004::/tmp/gentoo:/bin/bash
    50-fedora:x:1005:1005::/tmp/fedora:/bin/bash
  • 顯示匹配到行的前面幾行:-B #。#是數字

    # grep -nB2 gentoo /etc/passwd
    47-za2:x:1002:1003::/home/za2:/bin/bash
    48-mysql:x:1003:979::/home/mysql:/sbin/nologin
    49:gentoo:x:1004:1004::/tmp/gentoo:/bin/bas
  • 顯示匹配到行的前面幾行和後面幾行:-C #。#是數字

    # grep -nC1 gentoo /etc/passwd
    48-mysql:x:1003:979::/home/mysql:/sbin/nologin
    49:gentoo:x:1004:1004::/tmp/gentoo:/bin/bash
    50-fedora:x:1005:1005::/tmp/fedora:/bin/bash
  • 字元匹配

    • .:匹配任意單個字元

      # grep -n "f..ora" /etc/passwd
      50:fedora:x:1005:1005::/tmp/fedora:/bin/bash
      # grep "f.ora" /etc/passwd
      #
    • []:匹配指定範圍內的任意單個字元,中間不用逗號分隔

    • [^]:匹配指定範圍外的任意單個字元

      [:digit:],[:lower:],[:upper:],[:alpha:],[:alnum:],[:punct:],[:space:]

      例子:匹配r和t之間,是2個字母的行。

      # grep "r[[:alpha:]][[:alpha:]]t" /etc/passwd
      root:x:0:0:root:/root:/bin/bash
      operator:x:11:0:operator:/root:/sbin/nologin
  • 匹配次數:預設是貪婪模式,匹配到後,還會一直繼續匹配下去,直到匹配不到了才停。

    下麵的例子匹配"x*y",【xxxxy】里有很多x,貪婪模式就把所有x都匹配了,而不是匹配的【xy】

    • 【*】:匹配其前面的字元任意次。0次也包括。

      註意下麵方括弧里的是被匹配到的。

      # cat t1
      abxy
      aby
      xxxxy
      yab
      asdf
      # grep "x*y" t1
      ab[xy]
      ab[y]
      [xxxxy]
      [y]ab

      匹配r本身和r之後面的所有字元。

      # grep "r.*" /etc/passwd
    • 【?】:匹配其前面的字元0次或者1次。

    • 【\+】:匹配其前面的字元1次或者多次。

    • 【\{m\}】:匹配其前面的字元m次。

    • 【\{m,n\}】:匹配其前面的字元至少m次,至多n次。

    • 【\{m,\}】:匹配其前面的字元至少m次.

    • 【\{0,n\}】:匹配其前面的字元至多n次。

      註意下麵方括弧里的是被匹配到的。

      # cat t1
      abxy
      aby
      xxxxy
      yab
      asdf
      # grep "x\?y" t1
      ab[xy]
      ab[y]
      xxx[xy]
      [y]ab
      # grep "x\+y" t1
      ab[xy]
      [xxxxy]
      # grep "x\{1\}y" t1
      ab[xy]
      xxx[xy]
      # grep "x\{2\}y" t1
      xx[xxy]
      # grep "x\{2,3\}y" t1
      x[xxxy]
      # grep "x\{1,2\}y" t1
      ab[xy]
      xx[xxy]
      # grep "x\{1,\}y" t1
      ab[xy]
      [xxxxy]
      [root@localhost tmp]# grep "x\{,2\}y" t1
      ab[xy]
      ab[y]
      xx[xxy]
      [y]ab
  • 位置錨定

    • 【^】:行首錨定
    • 【$】:行尾錨定
    • 【^PATTERN$】:用PATTERN匹配整行。
    • 【^$】:什麼都不能有的空行。
    • 【^[[:space:]]\+$】:包含空白字元的行。
    • 單詞:非特殊字元組成的連續字元都稱為單詞。
    • 【\<或\b】:單詞首錨定,用於單詞模式的左側
    • 【\>或\b】:單詞尾錨定,用於單詞模式的右側
    • 【\<單詞\>】:匹配完整單詞。
    # grep root /etc/passwd
    [root]:x:0:0:[root]:/[root]:/bin/bash
    operator:x:11:0:operator:/[root]:/sbin/nologin
    [root]kit:x:1006:1006::/home/[root]kit:/bin/bash
    user4:x:1007:1007::/home/user4:/bin/ch[root]
    ch[root]er:x:1008:1008::/home/ch[root]er:/bin/bash
    # grep "^root" /etc/passwd
    [root]:x:0:0:root:/root:/bin/bash
    [root]kit:x:1006:1006::/home/rootkit:/bin/bash
    # grep "root$" /etc/passwd
    user4:x:1007:1007::/home/user4:/bin/ch[root]
    # grep "^root$" /etc/passwd
    # echo $?
    1
    # cat t1
    abxy
    aby
    
    xxxxy
    
    yab
    asdf
    a
    # grep -n "^$" t1
    3:
    # grep -n "^[[:space:]]*$" t1
    3:
    5:
    # grep -n "^[[:space:]]\+$" t1
    5:
    # grep "\<root" /etc/passwd
    [root]:x:0:0:[root]:/[root]:/bin/bash
    operator:x:11:0:operator:/[root]:/sbin/nologin
    [root]kit:x:1006:1006::/home/[root]kit:/bin/bash
    # grep "root\>" /etc/passwd
    [root]:x:0:0:[root]:/[root]:/bin/bash
    operator:x:11:0:operator:/[root]:/sbin/nologin
    user4:x:1007:1007::/home/user4:/bin/ch[root]
    # grep "\<root\>" /etc/passwd
    [root]:x:0:0:[root]:/[root]:/bin/bash
    operator:x:11:0:operator:/[root]:/sbin/nologin

    練習1:顯示/etc/passwd文件中不以/bin/bash結尾的行

    # grep -nv "/bin/bash$" /etc/passwd

    練習2:找出/etc/passwd文件中2位數或3位數的單詞。

    # grep -n "\<[[:digit:]]\{2,3\}\>" /etc/passwd

    練習3:找出/etc/grub2.cfg文件中,以至少一個空白字元開頭,且後面非空白字元的行。

    # grep -n "^[[:space:]]\{1,\}[^[:space:]]" /etc/grub2.cfg

    練習4:找出"netstat -tan"命令結果中以"LISTEN"後跟0個,1個或多個空白字元結尾的行

    # netstat -tan | grep -n "LISTEN[[:space:]]*"
  • 分組及引用

    • 分組【\(\)】:將一個或多個字元用括弧捆綁在一起,當作一個整體去匹配。

    • 引用:被匹配到的分組,會保存在特殊的變數里,在後面可以引用它們。

      • \1:第一個被匹配到的分組
      • \2:第二個被匹配到的分組
      • \#:第#個被匹配到的分組

      練習:匹配一個分組,且後面有一個同樣的串。

      # cat t2
      He likes his lover.
      He loves his lover.
      She likes her liker.
      She loves her liker.
      # grep "l..e.*l..e" t2
      He [likes his love]r.
      He [loves his love]r.
      She [likes her like]r.
      She [loves her like]r.
      # grep "\(l..e\).*\1" t2
      He [loves his love]r.
      She [likes her like]r.
      

二,egrep使用介紹:

grep里的選項的用法在egrep里也適用。

  • 字元匹配:和grep相同

  • 次數匹配

    • ?:匹配其前面的字元0次或者1次。
    • +:匹配其前面的字元1次或者多次。
    • {m}:匹配其前面的字元m次。
    • {m,n}:匹配其前面的字元至少m次,至多n次。
    • {m,}:匹配其前面的字元至少m次.
    • {0,n}:匹配其前面的字元至多n次。
  • 位置錨定:和grep相同

  • 分組及引用

    • 分組():將一個或多個字元用括弧捆綁在一起,當作一個整體去匹配。
    • 引用:和grep相同
    • a|b:a或者b
    • C|cat:不是Cat或者cat,是C或者cat
    • (C|c)at:cat或者Cat

    練習1:找出/proc/meminfo文件中,所有在大寫或小寫S開頭的行。用3種方法實現。

    # egrep "^(s|S)" /proc/meminfo
     # grep -ni "^s" /proc/meminfo
    # grep  "^[sS]" /proc/meminfo

    練習2:找出/etc/passwd文件中2位數或3位數的單詞。

    # egrep -n "\<[[:digit:]]{2,3}\>" /etc/passwd

    練習3:找出/etc/grub2.cfg文件中,以至少一個空白字元開頭,且後面非空白字元的行。

    # egrep -n "^[[:space:]]{1,}[^[:space:]]" /etc/grub2.cfg

    練習4:找出/etc/rc.d/init.d/functions文件中某單詞後面跟一個小括弧的行。

    # grep "\<.*\>[[:space:]]*()" /etc/rc.d/init.d/functions

    練習5:使用echo命令輸出一個絕對路徑,使用egrep取出基名。

    # echo /etc/rc.d/init.d/functions | grep -o "^/.*/"
    /etc/rc.d/init.d/
    # echo /etc/rc.d/init.d/functions | egrep -o "[^/]+$"
    functions

    練習6:找出ifconfig命令結果中1-255之間的數值。

    # ifconfig | grep -E "\<[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]\>"

    練習7:找出ifconfig命令結果中IP地址。

    # ifconfig | egrep -n "\<[0-9]+\>.\<[0-9]+\>.\<[0-9]+\>.\<[0-9]+\>"

    練習8:找出用戶名和shell名相同的用戶。

    # egrep  "^([^:]+\>).*\1$" /etc/passwd
    sync:x:5:0:sync:/sbin:/bin/sync
    shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
    halt:x:7:0:halt:/sbin:/sbin/halt

三,fgrep使用介紹

當無需使用到正則表達式時,使用fgrep性能更好。

四,文本查看及處理工具

1,wc:統計行數,單詞數,位元組數,字元數

  • -l:行數
  • -w:單詞數
  • -c:位元組數
  • -m:字元數
# wc /etc/fstab
 12  60 541 /etc/fstab
# wc -l /etc/fstab
12 /etc/fstab
# wc -w /etc/fstab
60 /etc/fstab
# wc -c /etc/fstab
541 /etc/fstab
# wc -m /etc/fstab
541 /etc/fstab

2,remove sections(列) from each line of files

linux下的文本,也是有格式的,所謂的格式,就是有可識別的分隔標識,用分隔標識,就可以把文本內容,切分成列。

比如,/etc/passwdwen文件里的內容就是用冒號分隔的。

  • 語法:cut OPTION... [FILE]...

  • 指定冒號為分隔符:-d:

    只能指定單一分隔符。

  • 留下哪些列:-f1-3,5,7

# cut -d: -f1-3,5,7 /etc/passwd
rootkit:x:1006::/bin/bash
user4:x:1007::/bin/chroot
# wc -l /etc/rc.d/init.d/functions
712 /etc/rc.d/init.d/functions
# wc -l /etc/rc.d/init.d/functions | cut -d' ' -f1
712

3,按文本的某一列排序:sort。

把文本用指定的分隔符切分成列,然後用特定的列排序行。類似微軟的excel的按列排序功能。

  • 語法:sort [OPTION]... [FILE]...
  • 指定分隔符:-t
  • 指定用於排序的列的號碼:-k
  • 基於數值大小而非字元進行排序:-n
  • 逆序排序:-r
  • 忽略字元大小寫:-f
  • 連續,並重覆的行只保留一份:-u

用:分隔,按第3列的數字大小比較,降序排序。

# sort -t: -k3 -nr /etc/passwd

用:分隔,用第7列基於字母比較,升序排序,並去掉重覆的行。

# sort -t: -k7 -u /etc/passwd

4,刪除重覆的行:uniq

使用的前提:必須先sort

  • 語法:uniq [OPTION]... [INPUT [OUTPUT]]
  • 顯示重覆的次數:-c
  • 僅顯示未曾重覆過的行:-u
  • 僅顯示重覆過的行:-d

檢查shell的使用情況。

# cut -d: -f7 /etc/passwd | sort |uniq -c
      7 /bin/bash
      1 /bin/chroot
      1 /bin/csh
      1 /bin/false
      1 /bin/sync
      1 /sbin/halt
     40 /sbin/nologin
      1 /sbin/shutdown
# cut -d: -f7 /etc/passwd | sort |uniq -u
/bin/chroot
/bin/csh
/bin/false
/bin/sync
/sbin/halt
/sbin/shutdown
# cut -d: -f7 /etc/passwd | sort |uniq -d
/bin/bash
/sbin/nologin

5,逐行比較文件,可以比較多個文件,可以按目錄比較

  • 語法:diff [OPTION]... FILES
  • 用重定向生成一個差分的文件。
# diff t1 t2
# diff t1 t2 > patch1

6,根據diff產生的差分文件,給源文件打補丁:patch

  • 修改舊的文件,讓舊的文件升級(打補丁)。-i後面的文件是用diff輸出重定向生成的文件。
# patch -i patch1 t1
  • 補丁打錯了,恢復到舊的文件:-R
# patch -R -i patch1 t1

練習:取出某個網卡的ip地址。

# ifconfig enp0s3
enp0s3: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 10.247.236.19  netmask 255.255.254.0  broadcast 10.247.237.255
        inet6 fe80::b497:5ec:1efb:72b5  prefixlen 64  scopeid 0x20<link>
        ether 08:00:27:10:c2:53  txqueuelen 1000  (Ethernet)
        RX packets 32057  bytes 5882570 (5.6 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 5324  bytes 1032770 (1008.5 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
# ifconfig enp0s3 | grep "\<inet\>" | cut -d' '  -f10
10.247.236.19

c/c++ 學習互助QQ群:877684253

本人微信:xiaoshitou5854


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • WPF提供了一個更高級的模型,通過該模型可以只關註動畫的定義,而不必考慮它們的渲染方式。這個模型基於依賴項屬性基礎架構。本質上,WPF動畫只不過是在一段時間間隔內修染方式。這個模型基於依賴項屬性基礎架構。本質上,WPF動畫只不過是在一段時間間隔內修改依賴項屬性值的一種方式。 儘管目前WPF可為動畫使 ...
  • 聲明:參考於asp.net core 3.1 官網(以後不再說明) 本教程是系列教程中的第一個教程,介紹生成 ASP.NET Core Razor Pages Web 應用的基礎知識。 在本系列結束時,你將擁有一個管理電影資料庫的應用 環境:visual studio 2019. .ASP.NET ...
  • 原文:https://blogs.msdn.microsoft.com/mazhou/2018/03/02/c-7-series-part-9-ref-structs/ 背景 在之前的文章中,我解釋了許多新的C#特性,每一個特性都是為了增強語言或者解決問題而引入的。具體來說,我解釋了值類型和引用類型 ...
  • 1.如何判斷按鍵成功按下? 2.在什麼時候採集數據? 按鍵在按下的過程中會產生大約2ms-3ms抖動,如果此時此刻採集數據來判斷按鍵是不准確的,那麼為了採集到準確的數據需要設置一個大約10ms左右的計數器。 原理:當key按下,key_cnt開始計數,當key_cnt > 10ms 則判斷按鍵成功按 ...
  • \+, , (乘), /(除), (乘方), %(取模) let var=算術運算符表達式 var=$[算術運算符表達式] var=$((算術運算符表達式)) var=$(expr $ARG1 OP $APG2) 註意:乘法符號在某些場景中需要使用轉義符 練習:寫一個腳本文件,完成如下功能:添加3個 ...
  • 我們常用的linux系統在安裝過程中大多都省略了對系統進行分區的操作,以至於後期,不瞭解什麼是分區以及分區當中最基本的一些概念, 我們不說最細的知識,只求瞭解這個過程,那直接步入正題,開始第一節的學習。 開始準備 Linux 系統鏡像一個 這裡我選擇的是 TinyCore Linux 最小的linu ...
  • 作為各種電子產品的控制和處理核心,微控制單元(MCU)器件是一種集成微處理器(CPU)、存儲器(RAM/ROM)、計數器,以及I/O埠的晶元。從MCU內核架構來看,單片機有歷經多年的8051,基於Arm CortexM內核的微處理器,以及最近兩年流行起來的開源RISC-V微處理器。無論採用哪種架構 ...
  • SpringBoot+Shiro+mybatis整合 1. 使用Springboot版本2.0.4 與shiro的版本 引入springboot和shiro依賴 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.a ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...