第十節 正則表達式 標簽(空格分隔):Linux實戰教學筆記 [更多資料點我查看][1] 第1章 什麼是正則表達式 1. 正則表達式就是為了處理大量的文本|字元串而定義的一套規則和方法 2. 通過定義的這些特殊符號的輔助,系統管理員就可以快速過濾,替換或輸出需要的字元串。Linux正則表達式一般以行 ...
第十節 正則表達式
標簽(空格分隔):Linux實戰教學筆記
---更多資料點我查看
第1章 什麼是正則表達式
- 正則表達式就是為了處理大量的文本|字元串而定義的一套規則和方法
- 通過定義的這些特殊符號的輔助,系統管理員就可以快速過濾,替換或輸出需要的字元串。Linux正則表達式一般以行為單位處理。
簡單說
- 為處理大量文本|字元串而定義的一套規則和方法
- 以行為單位出來,一次處理一行
正則表達式是一種描述一組字元串的模式,類似數字表達式,通過各種操作符組成更小的表達式
第2章 為何使用正則表達式
linux運維工作,大量過濾日誌工作,化繁為簡。
簡單,高效。
正則表達式高級工具;三劍客都支持
第3章 容易混淆的兩個註意事項
- 正則表達式應用非常廣泛,存在於各種語言中,php perl grep sed awk 支持。ls * 通配符
- 但現在學的是Linux中的正則表達式,最常應用正則表達式的命令是grep(egrep),sed,awk。
- 正則表達式和通配符有本質區別
正則表達式用來找:【文件】內容,文本,字元串。一般只有三劍客支持
通配符用來找:文件名,普通命令都支持
第4章 正則表達式使用註意事項
linux正則表達式以行為單位處理字元串
便於區別過濾出來的字元串,一定配合grep/egrep命令學習。
- 註意字元集,exportLC_All=C:無論何時,做何事都要註意字元集
第5章 正則表達式的分類
POSIX規範將正則表達式的分為了兩種
- 基本正則表達式(BRE,basic regular expression)
- 高級功能:擴展正則表達式(ERE,extended regular expression)
5.1 BRE和ERE的區別僅僅是元字元的不同:
- BRE(基礎正則表達式)只承認的元字元有^$.[]*其他字元識別為普通字元:\(\)
- ERE(擴展正則表達式)則添加了(){}?+|等
- 只有在用反斜杠“\”進行轉義的情況下,字元(){}才會在BRE被當作元字元處理,而ERE中,任何元符號前面加上反斜杠反而會使其被當作普通字元來處理。
第6章 如何區分通配符和正則表達式
- 不需要思考的判斷方法:在三劍客awk,sed,grep,egrep都是正則,其他都是通配符
- 區別通配符和正則表達式最簡單的方法:
(1)文件目錄名===>通配符
(2)文件內容(字元串,文本【文件】內容)===>正則表達式
- 通配符和正則表達式都有“*”,“?”,“【】”,但是通配符的這些符號都能自身代表任意字元,而正則表達式的這些符號只能代表這些符號前面的字元
第7章 基本正則表達式
7.1 基礎正則表達式
字元 | 描述 |
---|---|
^ | ^word搜索以word開頭的內容 |
$ | word$搜索以word結尾的內容 |
---|
^$ | 表示空行,不是空格 |
---|
. | 代表且只能代表任意一個字元(不匹配空行) |
---|
\ | 轉義字元,讓有特殊含義的字元脫掉馬甲,現出原形,如\.只表示小數點 |
---|
* | 重覆之前的字元或文本0個或多個,之前的文本或字元連續0次或多次 |
---|
.* | 任意多個字元 |
---|
^.* | 以任意多個字元串開頭,.*儘可能多,有多少算多少,貪婪性 |
---|
括弧表達式 | |
---|---|
[abc][0-9][\.,/] | 匹配字元集合內的任意一個字元a或b或c:[a-z]匹配所有小寫字母;表示一個整體,內藏無限可能;[abc]找a或b或c可以寫成[a-c] |
[^abc] | 匹配不包含^後的任意字元a或b或c,是對[abc]的取反,且與^含義不同 |
---|
a\{n,m\} | 重覆前面a字元n到m次(如果用egrep或sed -r可去掉斜線) |
---|
a\{n,\} | 重覆前面a字元至少n次,如果用egrep或sed -r可去掉斜線 |
---|---|
a\{n\} | 重覆前面a字元n次,如果用egrep或sed -r可去掉斜線 |
--- | --- |
第8章 擴展正則表達式ERE
特殊字元 | 含義與例子 |
---|---|
+ | 重覆前一個字元一次或一次以上,前一個字元連續一個或多個,把連續的文本/字元取出 |
? | 重覆前面一個字元0次或1次(.是有且只有1個) |
---|
管道符 | 表示或者同時過濾多個字元 |
---|
() | 分組過濾被括起來的東西表示一個整體(一個字元),後向引用 |
---|
第9章 正則小結
基礎正則:BRE
|^|$|.||.|[abc]|[^abc]|
|---|---|擴展正則:ERE
|+|\||?|()|{}|a{n,m}|a{n,}|a{n}|
|---|---|轉義字元\:將字元的意思改變(不支持正則符號的,轉變字元含義為正則,支持正則的轉變為普通字元含義)
註意:
- grep預設不支持正則,因此正則表達式的符號對於grep來說就等同於普通字元含義,因此,想讓grep直接處理正則符號必須通過轉義字元\{\}來處理。
- grep -E 強制讓grep直接認識正則符號,不需要再進行轉義
- egrep 等效grep -E 天生就能認識正則符號
- 我們平時備份可以通過cp 文件名{,.bak}的形式進行,避免再打一次文件名
sed -r :讓sed支持正則
第10章 基本正則和擴展正則區別
基礎正則BRE | 擴展正則ERE |
---|---|
\? | ? |
\+ | + |
\{\} | {} |
\( \ ) | () |
\ |
所謂基礎正則實際上就是得需要轉義字元配合表達的正則,而擴展正則就是讓命令擴展它的許可權讓他直接就認識正則表達符號(egrep,sed -r,awk直接支持)
第11章 補充說明
11.1 一些預定義的:
正則表達式 | 描述 | 示例 |
---|---|---|
[:alnum:] | [a-zA-Z0-9]匹配任意一個字母或數字字元 | [[:alnum:]]+ |
[:alpha:] | 匹配任意一個字母字元(包括大小寫字母) | [[:alpha:]]{4} |
[:blank:] | 空格與製表符(橫向縱向) | [[:blank:]]* |
[:digit:] | 匹配任意一個數字字元 | [[:digit:]]? |
[:lower:] | 匹配小寫字母 | [[:lower:]]{5,} |
[:upper:] | 匹配大寫字母 | ([[:upper:]]+)? |
[:punct:] | 匹配標點符號 | [[:punct:]] |
[:space:] | 匹配一個包括換行符,回車等在內的所有空白符 | [[:space:]]+ |
[:graph:] | 匹配任何一個可以看得見的且可以列印的字元 | [[:graph:]] |
[:xdigit:] | 任何一個十六進位數 | [[:xdigit:]]+ |
[:cntrl:] | 任何一個控制字元(ASCII字元集中的前32個字元) | [[:cntrl:]] |
[:print:] | 任何一個可以列印的字元 | [[:print:]] |
11.2 元字元
元字元是一種Perl風格的正則表達式,只有一部分文本處理工具支持它,並不是所有的文本處理工具都支持
正則表達式 | 描述 | 示例 |
---|---|---|
\b | 單詞邊界 | \bcool\b匹配cool,不匹配coolant |
\B | 非單詞邊界 | cool\B匹配coolant不匹配cool |
\d | 單個數字字元 | b\db匹配b2b,不匹配bcb |
\D | 單個非數字字元 | b\Db匹配bcb不匹配b2b |
\w | 單個單詞字元(字母,數字與_) | \w匹配1或a,不匹配& |
\W | 單個非單詞字元 | \W匹配&,不匹配1或a |
\n | 換行符 | \n匹配一個新行 |
\s | 單個空白字元 | x\sx匹配xx,不匹配xx |
\S | 單個非空白字元 | x\S\x匹配xkx,不匹配xx |
\r | 回車 | \r匹配回車 |
\t | 橫向製表符 | \t匹配一個橫向製表符 |
\v | 垂直製表符 | \v匹配一個垂直製表符 |
\f | 換頁符 | \f匹配一個換頁符 |
第12章 正則表達式總結
- egrep/grep 瞭解一下正則,簡單看看效果,結果
- egrep/grep -o 參數看正則到底匹配了什麼
- 多練就好,配合grep,egrep,sed -r,awk更為強大