Java開發筆記(三十八)利用正則表達式校驗字元串

来源:https://www.cnblogs.com/pinlantu/archive/2018/12/17/10134301.html
-Advertisement-
Play Games

前面多次提到了正則串、正則表達式,那麼正則表達式究竟是符合什麼定義的字元串呢?正則表達式是編程語言處理字元串格式的一種邏輯式子,它利用若幹保留字元定義了形形色色的匹配規則,從而通過一個式子來覆蓋滿足了上述規則的所有字元串。正則表達式的保留字元主要有:圓括弧、方括弧、花括弧、豎線、橫線、點號、加號、星 ...


前面多次提到了正則串、正則表達式,那麼正則表達式究竟是符合什麼定義的字元串呢?正則表達式是編程語言處理字元串格式的一種邏輯式子,它利用若幹保留字元定義了形形色色的匹配規則,從而通過一個式子來覆蓋滿足了上述規則的所有字元串。正則表達式的保留字元主要有:圓括弧、方括弧、花括弧、豎線、橫線、點號、加號、星號、反斜桿等等,這些保留字元的作用詳見前一篇博文,下麵再簡單總結一下它們的用途:
圓括弧“()”:把圓括弧內外的表達式區別開來。
方括弧“[]”:表示方括弧內部的字元互相之間是或的關係。
花括弧“{}”:花括弧中間填寫數字,表示花括弧前面的字元有多少位。
豎線“|”:對前面和後面的字元進行或運算,表示既可以是前面的字元,也可以是後面的字元。
橫線“-”:與前面和後面的字元組合起來,代表兩個字元之間的所有連續字元。
點號“.”:代表除了回車符和換行符以外的其它字元。
加號“+”:表示加號前面的字元可以有一位,也可以有多位。
星號“*”:表示星號前面的字元可以有一位,也可以有多位,還可以沒有(0位)。
反斜桿“\”:兩個反斜桿可對保留字元進行轉義,表示保留字元的自身符號。
正則表達式除了用在split方法中切割字元串,還可以用在matches方法中判斷字元串是否符合正則條件。以手機號碼為例,不管是移動還是聯通還是電信的手機號,統統都是11位數字,並且第一位數字固定為1,第二位數字可能是3、4、5、7、8,再加上9位數字湊成11位手機號。那麼通過正則表達式書寫11位手機號碼的規則,第一位就用“1”表示,第二位可用“[34578]”表示,後面的9位數字使用“\\d{9}”表達,整合起來便形成了最終的手機號碼正則串“1[34578]\\d{9}”。下麵的isPhone方法,就是根據這個正則表達式校驗手機號碼的代碼例子:

	// 利用正則表達式檢查字元串是否為合法的手機號碼
	public static boolean isPhone(String phone) {
		// 開頭的"1"代表第一位為數字1,"[34578]"代表第二位可以為3、4、5、7、8其中之一,"\\d{9}"代表後面是9位數字
		String regex = "1[34578]\\d{9}";
		// 字元串變數的matches方法返回正則表達式對該串的檢驗結果,true表示符合字元串規則,false表示不符合規則
		return phone.matches(regex);
	}

 

再來一個更複雜的字元串校驗——身份證號碼的格式校驗,中國的二代身份證號碼共有18位,其中前六位是地區編碼,中間八位是公民的出生年月日,後面三位是該地區當日的出生序號,最後一位是校驗碼。國家把各省區劃分為七大塊,地區編碼的首位為1代表華北地區,為2代表東北地區,為3代表華東地區,為4代表中南地區,為5代表西南地區,為6代表西北地區,為8代表港澳台特別行政區。地區編碼的第二位代表大區域下麵的具體省區,再後面的位數表示下麵的地市乃至縣區,通常只要校驗地區編碼的前兩位就行了,於是得到如下的地區校驗的正則方法代碼例子:

	// 校驗身份證號碼開頭的六位地區編碼
	public static void checkArea() {
		String regex = "(1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\\d{4}";
		for (int i=0; i<=90; i++) {
			String area = String.format("%06d", i*10000);
			boolean check = area.matches(regex);
			System.out.println("area = "+area+", check = "+check);
		}
	}

 

身份證號碼中間的八位出生年月日,可再拆分為四位的年份、兩位的月份和兩位的日期。一個健在公民的出生年份,只可能是二十世紀和二十一世紀的某一年,也就是說,四位年份必定以19或者20開頭,因此正則串“(19|20)\\d{2}”即可覆蓋這兩個世紀的兩百個年份。此時校驗年份的正則方法代碼如下所示:

	// 校驗四位的年份字元串
	public static void checkYear() {
		String regex = "(19|20)\\d{2}";
		for (int i=1899; i<=2100; i++) {
			if (i>1910 && i<2090) {
				continue;
			}
			String year = i+"";
			boolean check = year.matches(regex);
			System.out.println("year = "+year+", check = "+check);
		}
	}

 

年份校驗完畢,後面的月份更簡單,因為兩位月份就是“01”到“12”中間的十二個數字。如果月份首位是0,那麼第二位可以是1到9;如果月份首位是1,那麼第二位可以是0到2。據此可把月份的正則表達式分解成兩個關係為“或”的子表達式,其中第一個表達式可使用“0[1-9]”,第二個表達式可使用“1[0-2]”,兩個表達式通過豎線連接起來便形成了完整的月份表達式“0[1-9]|1[0-2]”。此時校驗月份的正則方法代碼如下所示:

	// 校驗兩位的月份字元串
	public static void checkMonth() {
		String regex = "0[1-9]|1[0-2]";
		for (int i=0; i<=13; i++) {
			String month = String.format("%02d", i);
			boolean check = month.matches(regex);
			System.out.println("month = "+month+", check = "+check);
		}
	}

 

月份後面的日期,校驗起來稍微有些複雜。合法的兩位日期可以是“01”到“31”中間的三十一個數字,故而日期的正則校驗需要分解成以下的三種情況:
1、日期首位是0,那麼第二位可以是1到9,該情況的正則表達式應為“0[1-9]”。
2、日期首位是1或者2,那麼第二位可以是0到9,該情況的正則表達式應為“[12]\\d”。
3、日期首位是3,那麼第二位可以是0和1,該情況的正則表達式應為“3[01]”。
綜合以上的三種情況,得到完整的日期校驗正則串為“0[1-9]|[12]\\d|3[01]”。此時校驗日期的正則方法代碼如下所示:

	// 校驗兩位的日期字元串
	public static void checkDay() {
		String regex = "0[1-9]|[12]\\d|3[01]";
		for (int i=0; i<=32; i++) {
			String day = String.format("%02d", i);
			boolean check = day.matches(regex);
			System.out.println("day = "+day+", check = "+check);
		}
	}

 

然後還要校驗身份證號碼的末尾四位,包括三位的出生編碼和一位的校驗碼。其中出生編碼為三位數字,而校驗碼除了數字以外還可能是小寫的x或者大寫的X,因此出生編碼和校驗碼也得分別加以判斷。三位的出生編碼,對應的正則表達式為“\\d{3}”;一位的校驗碼,對應的正則表達式為“[0-9xX]”;二者的式子合起來,就變成了“\\d{3}([0-9xX])”。下麵的方法代碼可生成四位的字元串,併進行身份證末四位的正則校驗:

	// 校驗身份證號碼末尾的四位編號串
	public static void checkLastFour() {
		String regex = "\\d{3}([0-9xX])";
		for (int i=0; i<36; i++) {
			char last;
			if (i < 10) {
				// 轉換成數字字元
				last = (char) ('0'+i);
			} else {
				// 轉換成字母字元
				last = (char) ('A' + i-10);
			}
			String lastFour = String.format("%03d%c", i*13, last);
			boolean check = lastFour.matches(regex);
			System.out.println("lastFour = "+lastFour+", check = "+check);
		}
	}

 

以上把18位身份證號碼的各個區間分別做了正則校驗,最後還要組裝各區間的正則表達式。這時為了避免各區間的表達式互相干擾,可以利用圓括弧將各區間的作用範圍先行界定,就像下麵這樣“(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)”,接著再把各區間的正則表達式分別填入該區間的圓括弧之中,便形成了最終的身份證號碼正則串。包含正則串在內的身份證校驗的完整方法如下所示:

	// 利用正則表達式檢查字元串是否為合法的身份證號碼
	public static boolean isICNO(String icno) {
		//String regex = "(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)";
		String regex = "((1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\\d{4})((19|20)\\d{2})(0[1-9]|1[0-2])(0[1-9]|[12]\\d|3[01])(\\d{3}([0-9xX]))";
		return icno.matches(regex);
	}

  

更多Java技術文章參見《Java開發筆記(序)章節目錄


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Python的集合不允許有重覆 集合與字典類似,集合使用大括弧,集合沒有鍵值對,集合每一個唯一對象之間用逗號分隔 集合不維持插入順序,不過可以用sorted函數輸出排序,但是不會更改系統地址中的位置只作為顯示排序 可以向set函數傳遞任何序列,由這個序列中的對象創建一個元素集合(去除所有重覆) 集合 ...
  • 1. 簡介 國慶假日結束了,新的工作又開始了,今天我們繼續爬取一個網站,這個網站為 ,蜂鳥一個攝影大牛聚集的地方,本教程請用來學習,不要用於商業目的,不出意外,蜂鳥是有版權保護的網站。 2. 網站分析 第一步,分析要爬取的網站有沒有方法爬取,打開頁面,找分頁 上面的頁面發現一個關鍵的參數 這個就是頁 ...
  • 這個LeetCode刷題系列的博客權當是為自己記一下筆記吧。博客系列會從LeetCode的第一題開始刷,同時會從零開始學習【因為我就是零/(ㄒoㄒ)/~~】。同時,如果有寫錯的地方,希望大佬們在評論區指正。 LeetCode官網 <!-- more --> LeetCode第一題 首先需要一點點關於 ...
  • final: final修飾符可用於修飾類,放在類名後面,被final修飾符修飾的類不能被繼承。示例代碼: final修飾符還可用於修飾類中的成員函數,但是成員函數必須是虛函數,被final修飾符修飾的虛函數在子類中不可以被重寫。示例代碼如下: override: 在C++11之前,在父類中用vir ...
  • 題目地址: https://www.luogu.org/problemnew/show/P1318 題意簡述 給出n個柱子的高度,柱子之間的空隙可以積水,求出最大的積水面積總和。 一道很有意思的模擬題,一開始還沒有什麼思路,後來發現 沒有柱子可以懸空 ,模擬的思路就大概出來了。 我的思路很簡單比較好 ...
  • admin組件使用 Django 提供了基於 web 的管理工具。 Django 自動管理工具是 django.contrib 的一部分。你可以在項目的 settings.py 中的 INSTALLED_APPS 看到它: django.contrib是一套龐大的功能集,它是Django基本代碼的組 ...
  • 前言 本篇是講述之前學習設計模式的一個總結篇,其目的是為了對這些設計模式的進行一個提煉總結,能夠通過查看看此篇就可以理解一些設計模式的核心思想。 設計模式簡介 什麼是設計模式 設計模式是一套被反覆使用的、多數人知曉的、經過分類編目的、代碼設計經驗的總結。 為什麼使用設計模式 使用設計模式是為了重用代 ...
  • 在 Python2 中如要想要獲得用戶從命令行的輸入,可以使用 input() 和 raw_input() 兩個函數,那麼這兩者有什麼區別呢? 我們先藉助 help 函數來看下兩者的文檔註釋: 可以看出,raw_input() 返回的始終是一個“原始”(raw)字元串,並且去掉了行末的換行符。 值得 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...