LinuxShell——正則表達式 摘要:本文主要學習了Shell中的正則表達式。 簡介 含義 正則表達式,也稱作正規表示法,是用於描述字元排列和匹配模式的一種語法規則,它主要用於字元串的模式分割、匹配、査找及替換操作。 正則表達式是用來匹配文件中的字元串的方法,它會先把整個文本分成一行一行的字元串 ...
LinuxShell——正則表達式
摘要:本文主要學習了Shell中的正則表達式。
簡介
含義
正則表達式,也稱作正規表示法,是用於描述字元排列和匹配模式的一種語法規則,它主要用於字元串的模式分割、匹配、査找及替換操作。
正則表達式是用來匹配文件中的字元串的方法,它會先把整個文本分成一行一行的字元串,然後從每行字元串中搜索是否有符合正則表達式規則的字元串,如果有則匹配成功,如果沒有則匹配失敗。
正則表達式和通配符的區別
正則表達式用來在文件中匹配符合條件的字元串,通配符用來匹配符合條件的文件名。其實這種區別隻在Shell中適用,因為用來在文件中搜索字元串的命令,如grep、awk、sed等可以支持正則表達式,而在系統中搜索文件的命令,如ls、find、cp等不支持正則表達式,所以只能使用Shell自己的通配符來進行匹配了。
語系對正則表達式的影響
不同環境下語系不同,可能使用正則表達式選取的結果也會有所差異。
使用之前設置語系:
1 [root@localhost ~]# export LANG=C 2 [root@localhost ~]# export LC_ALL=C
元字元
在正則表達式中,我們把用於匹配的特殊符號又稱作元字元。在Shell中,元字元又分為基礎元字元和擴展元字元。
基礎元字元
1 *:前一個字元匹配0次或任意多次。 2 .:匹配除換行符外的任意一個字元。 3 ^:匹配行首。例如:^hello會匹配以hello開頭的行。 4 $:匹配行尾。例如:hello&會匹配以hello結尾的行。 5 []:匹配中括弧里的任意一個字元,而且只匹配一個字元。例如:[aoeiu]匹配任意一個母音字母,[0-9]匹配任意一位數字,[a-z][0-9]匹配由小寫字母和一位數字構成的兩位字元。 6 [^]:匹配除了中括弧里的字元以外的任意一個字元。例如:[^0-9]匹配任意一位非數字字元,[^a-z]匹配任意一位非小寫字母。 7 \:轉義符,用於取消特殊符號的含義。 8 \{n\}:表示其前面的字元恰好出現n次。例如:[0-9]\{4\}匹配4位數字,[1][3-8][0-9]\{9\}匹配手機號碼。 9 \(n,\}:表示其前面的字元出現不少於n次。例如:[0-9]\{2,\}匹配兩位及以上的數字。 10 \{n,m\}:表示其前面的字元至少出現n次,最多出現m次。例如:[a-z]\{6,8\}匹配6到8位的小寫字母。
1)*
正則表達式中的“*”和通配符中的“*”含義不同,正則表達式中的代表前一個字元重覆0次或任意多次。
舉例:
“a*”並不是匹配a後面的任意字元,而是可以匹配所有內容,包括空白行,所以“a*”是沒有意義的。
“aa*”會匹配至少包含一個a的字元串。
“a*b”並不能匹配a和b之間有任意字元的字元串,只能匹配包含了b的字元串。
2).
正則表達式中的“.”只能匹配一個字元,這個字元可以是任意字元。
舉例:
“a.b”會匹配a和b之間有一個字元的字元串。
“a.*b”會匹配a和b之間有任意字元的字元串。
3)^
正則表達式中的“^”代表匹配行首。
舉例:
“^M”會匹配以“M”開頭的行。
4)$
正則表達式中的“$”代表匹配行尾。
舉例:
“n$”會匹配以“n”結尾的行。
5)[]
正則表達式中的“[]”會匹配中括弧里指定的任意一個字元,註意只能匹配一個字元。
舉例:
“[ao]”要麼匹配一個a字元,要麼匹配一個o字元。
“[A-Z]”會匹配任意一個大寫字母。
6)[^]
正則表達式中的“[^]”會匹配除了中括弧里的字元以外的任意一個字元。
舉例:
“^[^a-zA-Z]”會匹配不以字母開頭的行。
7)\
轉義符會取消特殊符號的含義,將其作為正常的字元串來匹配。
舉例:
“.$”不能匹配使用.結尾的行,因為.有特殊含義,可以使用“\.$”來匹配使用.結尾的行。
8)\{n\}
正則表達式中的“\{n\}”表示其前面的字元恰好出現n次。
舉例:
“a\{3\}”會匹配a字母連續出現3次的字元串,但不會限制之後的字元串,當然也會匹配到“aaaa”。
“a\{3\}[^a]”會匹配a字母連續出現3次的字元串,並且之後不為a的字元串,也就是只匹配a字母連續出現3次的字元串。
9)\{n,\}
正則表達式中的“\{n,\}”表示其前面的字元出現不少於n次。
舉例:
“^[0-9]\{3,\}”會匹配最少連續3個數字開頭的字元串。
10)\{n,m\}
正則表達式中的“\{n,m\}”表示其前面的字元出現不少於n次,不超過m次。
舉例:
“ao\{1,3\}e”會匹配在字母a和字母e之間最少1個、最多3個的o字元串。
擴展元字元
在正則表達式中還有一些元字元,被稱為擴展元字元。有的命令支持這種元字元,比如awk命令,有的命令不支持這種元字元,比如sed命令和grep命令。
1 +:前一個字元匹配1次或任意多次。例如:a+b匹配以a開始以b結尾的字元串。 2 ?:前一個字元匹配0次或1次。例如:a?b匹配ab或者b。 3 |:匹配兩個或多個分支選擇。例如:a|b|c匹配a或者b或者c。 4 ():匹配其整體為一個字元,即模式單元。可以理解為由多個單個字元組成的大字元。例如:(abc)+會匹配重覆abc這個整體一次或多次的字元串。