day52-正則表達式03

来源:https://www.cnblogs.com/liyuelian/archive/2022/10/24/16823444.html
-Advertisement-
Play Games

正則表達式03 5.6正則表達式三個常用類 java.util.regex 包主要包括以下三個類:Pattern類、Matcher類和PatternSyntaxException類 Pattern類 Pattern對象是一個正則表達式對象。Pattern類沒有公共構造方法,要創建一個Pattern對 ...


正則表達式03

5.6正則表達式三個常用類

java.util.regex 包主要包括以下三個類:Pattern類、Matcher類和PatternSyntaxException類

  • Pattern類

    Pattern對象是一個正則表達式對象。Pattern類沒有公共構造方法,要創建一個Pattern對象,調用其公共靜態方法,它返回一個Pattern對象。該方法接收一個正則表達式作為它的第一個參數,比如:Pattern r = Pattern.compile(pattern);

  • Matcher類

    Matcher對象是對輸入字元串進行解釋和匹配的引擎。與Pattern類一樣,Matcher類也沒有公共構造方法。需要調用Pattern對象的matcher方法來獲得一個Matcher對象

  • PatternSyntaxException類

    PatternSyntaxException是一個非強制異常類,它表示一個正則表達式模式中的語法錯誤。

5.6.1Pattern類

JAVA正則表達式, matcher.find()和 matcher.matches()的區別

  1. find()方法是部分匹配,是查找輸入串中與模式匹配的子串,如果該匹配的串有組還可以使用group()函數
  2. matches()是全部匹配,是將整個輸入串與模式匹配,如果要驗證一個輸入的數據是否為數字類型或其他類型,一般要用matches()
package li.regexp;

import java.util.regex.Pattern;

//演示matcher方法,用於整體匹配(註意是整個文本的匹配),在驗證輸入的字元串是否滿足條件使用
public class PatternMethod {
    public static void main(String[] args) {
        String content="hello abc hello,儂好";
        //String regStr="hello";//false
        String regStr="hello.*";//true

        boolean matches = Pattern.matches(regStr, content);
        System.out.println("整體匹配="+matches);
    }
}
image-20221024171833308

matches方法的底層源碼:

public static boolean matches(String regex, CharSequence input) {
    Pattern p = Pattern.compile(regex);
    Matcher m = p.matcher(input);
    return m.matches();
}

可以看到,底層還是創建了一個正則表達式對象,以及使用matcher方法,最後調用matcher類的matches方法(該方法才是真正用來匹配的)

5.6.2Matcher類

image-20221024172457319

image-20221024173920396

package li.regexp;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

//Matcher類的常用方法
public class MatcherMethod {
    public static void main(String[] args) {
        String content = "hello edu jack tom hello smith hello";
        String reStr = "hello";
        Pattern pattern = Pattern.compile(reStr);
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()) {
            System.out.println("====================");
            System.out.println(matcher.start());
            System.out.println(matcher.end());
            System.out.println("找到:" + content.substring(matcher.start(), matcher.end()));
        }

        //整體匹配方法,常用於校驗某個字元串是否滿足某個規則
        //Pattern的matches方法底層調用的就是Matcher類的matches方法
        System.out.println("整體匹配=" + matcher.matches());//false

        content = "hello edu jack hspedutom hello smith hello hspedu hspedu";
        //如果content有字元串 hspedu,就將其替換為 小貓咪
        reStr = "hspedu";
        pattern = Pattern.compile(reStr);
        matcher = pattern.matcher(content);
        //註意:返回的字元串newStringContent才是替換後的字元,原來的字元串content是不變化的
        String newStringContent = matcher.replaceAll("小貓咪");
        System.out.println("newStringContent= " + newStringContent);
        System.out.println("content= " + content);
    }
}
image-20221024175051846

5.7反向引用

請看下麵的問題:

給定一段文本,請找出所有四個數字連在一起的子串,並且這四個數字要滿足:

  1. 第一位與第四位相同
  2. 第二位與第三位相同

在解決前面的問題之前,我們需要瞭解正則表達式的幾個概念:

  1. 分組

    我們可以用圓括弧組成一個比較複雜的匹配模式,那麼一個圓括弧的部分我們可以看作是一個子表達式/分組

  2. 捕獲

    把正則表達式中的 子表達式/分組 匹配的內容,保存到記憶體中以數字編號或顯式命名的組裡,方便後面引用,從左向右,以分組的左括弧為標誌,第一個出現的分組的組號為1,第二個為2,以此類推。組0代表的是整個正則式

    -詳見5.4.6

  3. 反向引用

    圓括弧的內容被捕獲後,可以在這個括弧後被使用,從而寫出一個比較實用的匹配模式,這個我們稱為反向引用,這種引用既可以是在正則表達式內部,也可以是在正則表達式外部,內部反向引用使用\\\分組號,外部反向引用使用$分組號

5.7.1反向引用的匹配原理

捕獲組(Expression)在匹配成功時,會將子表達式匹配到的內容,保存到記憶體中一個以數字編號的組裡,可以簡單的認為是對一個局部變數進行了賦值,這時就可以通過反向引用方式,引用這個局部變數的值。一個捕獲組(Expression)在匹配成功之前,它的內容可以是不確定的,一旦匹配成功,它的內容就確定了,反向引用的內容也就是確定的了。

反向引用必然要與捕獲組一同使用的,如果沒有捕獲組,而使用了反向引用的語法,不同語言的處理方式不一致,有的語言會拋異常,有的語言會當作普通的轉義處理。

  • 看幾個小案例
    1. 要匹配兩個連續的相同數字 (\\\d)\\\1
    2. 要匹配五個連續的相同數字 (\\\d)\\\1{4}
    3. 要匹配個位與千位相同,十位與百位相同的數 (\\\d) (\\\d)\\\2\\\1
    4. 在字元串中檢索商品編號,形式如:12321-333999111這樣的號碼,要求滿足前面是一個五位數,然後一個-號,然後是一個九位數,連續的每三位要相同

例子:

package li.regexp;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

//反向引用
public class RegExp12 {
    public static void main(String[] args) {
        String content = "ke7887k5225e he12341551l12321-333999111lo ja11ck yy22y xx33333x";
        //1. 要匹配兩個連續的相同數字    (\\d)\\1
        //String regStr="(\\d)\\1";
        //2. 要匹配五個連續的相同數字    (\\d)\\1{4}
        //String regStr="(\\d)\\1{4}";
        //3. 要匹配個位與千位相同,十位與百位相同的數   (\\d)(\\d)\\2\\1
        //String regStr="(\\d)(\\d)\\2\\1";
        //在字元串中檢索商品編號,形式如:12321-333999111這樣的號碼,
        // 要求滿足前面是一個五位數,然後一個-號,然後是一個九位數,連續的每三位要相同
        String regStr="\\d{5}-(\\d)\\1{2}(\\d)\\2{2}(\\d)\\3{2}";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()){
            System.out.println("找到:"+matcher.group(0));
        }
    }
}

5.7.2去重

經典的結巴程式

把類似 “我.....我我要......學學學學.......編程java!”

這樣一句話,通過正則表達式將其修改成“我要學編程java!”

package li.regexp;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

//去重
public class RegExp13 {
    public static void main(String[] args) {
        String content = "我.....我我要......學學學學.......編程java!";
        //1.去掉所有的 .
        Pattern pattern = Pattern.compile("\\.");
        Matcher matcher = pattern.matcher(content);
        content = matcher.replaceAll("");//用空串替換掉.
        System.out.println("去掉所有的\".\"=" + content);

        //2.去掉重覆的字
        //思路:
        //2.1使用(.)\\1+去匹配連續重覆的字
        //2.2使用反向引用$1來替換匹配到的內容

        //--註意:這裡的正則表達式匹配的是多個重覆的字,但是捕獲的內容是重覆的字中的一個,即圓括弧
        pattern = Pattern.compile("(.)\\1+");//分組的捕獲內容記錄到$1中
        matcher = pattern.matcher(content);//因為正則表達式改變了,需要重置 matcher
        while (matcher.find()) {
            System.out.println("找到=" + matcher.group(0));
        }
        //使用反向引用$1來替換匹配到的內容
        //註意:雖然上面的正則表達式是匹配到的連續重覆的字,但是捕獲的是圓括弧裡面的內容,所以捕獲的組裡面的字只有一個,
        //因此使用replaceAll("$1")的意思是:用捕獲到的單個字去替換匹配到的多個重覆的字
        content = matcher.replaceAll("$1");
        System.out.println("去掉重覆的字=" + content);

        //2.相當於:
        // content = Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");
        // System.out.println(content);
    }
}
image-20221024193127111

5.8替換分割匹配

5.8.1替換

使用正則表達式替換字元串可以直接調用 public String replaceAll(String regex,String replacement) ,它的第一個參數是正則表達式,第二個參數是要替換的字元串。

給出一段文本:

/*
2000年5月,JDK1.3、JDK1.4和J2SE1.3相繼發佈,幾周後其獲得了Apple公司Mac OS X的工業標準的支持。2001年9月24日,J2EE1.3發佈。2002年2月26日,J2SE1.4發佈。自此Java的計算能力有了大幅提升。
*/

將這段文字中的 JDK1.3 JDK1.4 統一替換成 JDK

package li.regexp;

//替換
public class RegExp14 {
    public static void main(String[] args) {
        String content = "2000年5月,JDK1.3、JDK1.4和J2SE1.3相繼發佈,幾周後其獲得了" +
                "Apple公司Mac OS X的工業標準的支持。2001年9月24日,J2EE1.3發佈。2002" +
                "年2月26日,J2SE1.4發佈。自此Java的計算能力有了大幅提升。";

        //使用正則表達式,將JDK1.3/JDK1.4 統一替換成 JDK
        content = content.replaceAll("JDK1.[34]", "JDK");
        System.out.println(content);
    }
}
image-20221024194908770

5.8.3判斷

String類 public boolean matches(String regex)

驗證一個手機號碼,要求必須是以138、139開頭的

package li.regexp;

//匹配
public class RegExp14 {
    public static void main(String[] args) {
        //驗證一個手機號碼,要求必須是以138、139開頭的十一位數字
        String content="13899988880";
        if (content.matches("13[89]\\d{8}")) {//matches是整體匹配,不用加定位符
            System.out.println("驗證成功");
        }else {
            System.out.println("驗證失敗");
        }
    }
}
image-20221024200255987

5.8.3分割

String類 public String[] split(String regex)

例子

有如下字元串,要求按照#或者-或者~或者數字來分割

“hello#abc-jack12smith~北京”

package li.regexp;

//分割
public class RegExp14 {
    public static void main(String[] args) {

        //要求按照# 或者- 或者~ 或者數字 來分割
        String content = "hello#abc-jack12smith~北京";
        String[] split = content.split("#|-|~|\\d+");
        for (int i = 0; i < split.length; i++) {
            System.out.println(split[i]);
        }
    }
}
image-20221024201341871

5.9本章習題

5.9.1驗證電子郵件格式

規定電子郵件格式為:

  1. 只能有一個@
  2. @前面是用戶名,可以是a-z A-Z 0-9_-字元
  3. @後面是功能變數名稱,並且功能變數名稱只能是英文字母,比如 shouhu.com 或者 tsinghua.org.cn
  4. 寫出對應的正則表達式,驗證輸入的字元串是否滿足規則
package li.regexp;

public class Homework01 {
    public static void main(String[] args) {
        String content = "[email protected]";
        //因此,String 的 marches方法是整體匹配,不用加定位符,但是建議加上
        if (content.matches("^[\\w-]+@([a-zA-z]+\\.)+[a-zA-z]+$")) {
            System.out.println("匹配成功");
        } else {
            System.out.println("匹配失敗");
        }
    }
}
image-20221024204114836

源碼分析:

  1. 點擊matches方法,可以看到String的marches方法:
public boolean matches(String regex) {
    return Pattern.matches(regex, this);
}
  1. 再點擊return的Pattern.matches方法:
public static boolean matches(String regex, CharSequence input) {
    Pattern p = Pattern.compile(regex);
    Matcher m = p.matcher(input);
    return m.matches();
}
  1. m.matches()方法:
/**
 * Attempts to match the entire region against the pattern.-嘗試將整個區域與模式匹配
 */
public boolean matches() {
    return match(from, ENDANCHOR);
}

因此,String 的 marches方法是整體匹配,不用加定位符,但是建議加上

5.9.2驗證整數或者小數

要求驗證是不是整數或者小數

提示:這個題要考慮整數和負數

比如:123,-345,34.89,-87.0,-0.01,0.45等

package li.regexp;

public class Homework02 {
    public static void main(String[] args) {
        //要求驗證是不是整數或者小數
        //提示:這個題要考慮整數和負數
        //比如:123,-345,34.89,-87.0,-0.01,0.45等
        /**
         * 思路:
         * 1.先寫出簡單的正則表達式
         * 2.再根據各種情況逐步地完善
         * 2.1 [-+]? 考慮的是符號
         * 2.2 小數點以及小數點後面的數字可以用 (\\.\\d+)?
         * 2.3 小數點前面的應該存在數字,且分為兩種情況:
         *      2.3.1情況一:第一個應該以1-9開頭,剩下的可能有0到多個數字, ([1-9]\\d*)
         *      2.3.2情況二:小數點前面只有一位數字  0
         *      兩種情況整合起來就是  ([1-9]\\d*|0)
         */
        String content = "-09.9";
        //"^[-+]?([1-9]\\d*|0)(\\.\\d+)?$"
        if (content.matches("^[-+]?([1-9]\\d*|0)(\\.\\d+)?$")) {
            System.out.println("驗證成功-是整數或者小數");
        } else {
            System.out.println("驗證失敗-不是整數或者小數");
        }
    }
}
image-20221024223445779

5.9.3解析URL

對一個url進行解析 http://www.shhu.com:8080/abc/index.htm

  1. 要求得到協議是什麼 http
  2. 功能變數名稱是什麼 www.shhu.com
  3. 埠是什麼 8080
  4. 文件名是什麼 index.htm

思路:分組,4組,分別獲取到對應的值

image-20221024230302689

package li.regexp;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Homework03 {
    public static void main(String[] args) {
        String content = "http://www.shhu.com:8080/abc/de/fgh/index.htm";
        //如果名稱中要求有特殊符號,就將特殊符號加入到中括弧中
        String regStr = "^([a-zA-Z]+)://([a-zA-Z.]+):(\\d+)[\\w-/]*/([\\w.]+)$";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        if (matcher.matches()) {//整體匹配,如果匹配成功,可以通過group(x),獲取對應分組的內容
            System.out.println("整體匹配=" + matcher.group(0));
            System.out.println("協議=" + matcher.group(1));
            System.out.println("功能變數名稱=" + matcher.group(2));
            System.out.println("埠=" + matcher.group(3));
            System.out.println("文件名=" + matcher.group(4));
        } else {
            System.out.println("沒有匹配成功");
        }
    }
}
image-20221024225951325
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 01,如何開啟JS嚴格模式?JS嚴格模式有什麼特點? 兩種方式 全局開啟在js開頭加上 'use strict' 局部開啟,在作用域開頭加上 function fn(){ 'use strict' } 特點: 1,全局變數必須先聲明 2,禁止使用with 3,創建eval作用域 有單獨的作用域 4, ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 在 Vue,除了核心功能預設內置的指令 ( v-model 和 v-show ),Vue 也允許註冊自定義指令。它的作用價值在於當開發人員在某些場景下需要對普通 DOM 元素進行操作。 Vue 自定義指令有全局註冊和局部註冊兩種方式。先來 ...
  • 1 <!-- ! 廢話不多說,直接看代碼吧 ! --> 2 <template> 3 <div class=""> 4 <div class="chart" ref="ref_chart" style="width:370px;height:250px;"> </div> 5 </div> 6 </ ...
  • vue + elementUI項目中,el-cascader級聯選擇器使用頻率非常高,一些基本使用方法可以參考elementUI官方文檔,本文主要研究當介面只返回最後一級id時,如何向上找出所有父級數據,並設置組件el-cascader的預設值! 準備測試數據:方位、省、市區級聯選擇。 var li ...
  • 前言 加密解密是前後端開發經常需要使用到的技術,應用場景包括不限於用戶鑒權、數據傳輸等,不同的應用場景也會需要使用到不同的簽名加密演算法,或者需要搭配不一樣的簽名加密演算法來達到業務目標。所以瞭解加解密,以及常用的加解密函數庫,可以根據不同的業務場景,選擇適合當下業務場景的加解密函數庫。 安全性威脅 這 ...
  • 1 背景 市面上常見的有,2pc/3pc、tcc、saga等常見的分散式事務解決方案,但是實際實施起來框架比較重,設計開發比較繁瑣,不易於快速開發上手。本文提供一種基於柔性事務設計的簡單易上手的分散式事務設計方案,用於解決常見的分散式事務常見場景。 2 常見分散式事務場景 2.1 同步場景 常見的場 ...
  • 循序漸進地介紹了電腦方向的大部分基礎知識,包括計算設備的工作原理、諸多實用技能(包括網頁開發等),適合初學者構建對電腦科學的全面認知。 ...
  • python版本:python 3.9 mutagen版本:1.46.0 mutagen是一個處理音頻元數據的python模塊,支持多種音頻格式,是一個純粹的python庫,僅依賴python標準庫,可在Python 3.7及以上版本運行,支持Linux、Windows 和 macOS系統。 git ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...