前面多次提到了正則串、正則表達式,那麼正則表達式究竟是符合什麼定義的字元串呢?正則表達式是編程語言處理字元串格式的一種邏輯式子,它利用若幹保留字元定義了形形色色的匹配規則,從而通過一個式子來覆蓋滿足了上述規則的所有字元串。正則表達式的保留字元主要有:圓括弧、方括弧、花括弧、豎線、橫線、點號、加號、星 ...
前面多次提到了正則串、正則表達式,那麼正則表達式究竟是符合什麼定義的字元串呢?正則表達式是編程語言處理字元串格式的一種邏輯式子,它利用若幹保留字元定義了形形色色的匹配規則,從而通過一個式子來覆蓋滿足了上述規則的所有字元串。正則表達式的保留字元主要有:圓括弧、方括弧、花括弧、豎線、橫線、點號、加號、星號、反斜桿等等,這些保留字元的作用詳見前一篇博文,下麵再簡單總結一下它們的用途:
圓括弧“()”:把圓括弧內外的表達式區別開來。
方括弧“[]”:表示方括弧內部的字元互相之間是或的關係。
花括弧“{}”:花括弧中間填寫數字,表示花括弧前面的字元有多少位。
豎線“|”:對前面和後面的字元進行或運算,表示既可以是前面的字元,也可以是後面的字元。
橫線“-”:與前面和後面的字元組合起來,代表兩個字元之間的所有連續字元。
點號“.”:代表除了回車符和換行符以外的其它字元。
加號“+”:表示加號前面的字元可以有一位,也可以有多位。
星號“*”:表示星號前面的字元可以有一位,也可以有多位,還可以沒有(0位)。
反斜桿“\”:兩個反斜桿可對保留字元進行轉義,表示保留字元的自身符號。
正則表達式除了用在split方法中切割字元串,還可以用在matches方法中判斷字元串是否符合正則條件。以手機號碼為例,不管是移動還是聯通還是電信的手機號,統統都是11位數字,並且第一位數字固定為1,第二位數字可能是3、4、5、7、8,再加上9位數字湊成11位手機號。那麼通過正則表達式書寫11位手機號碼的規則,第一位就用“1”表示,第二位可用“[34578]”表示,後面的9位數字使用“\\d{9}”表達,整合起來便形成了最終的手機號碼正則串“1[34578]\\d{9}”。下麵的isPhone方法,就是根據這個正則表達式校驗手機號碼的代碼例子:
// 利用正則表達式檢查字元串是否為合法的手機號碼 public static boolean isPhone(String phone) { // 開頭的"1"代表第一位為數字1,"[34578]"代表第二位可以為3、4、5、7、8其中之一,"\\d{9}"代表後面是9位數字 String regex = "1[34578]\\d{9}"; // 字元串變數的matches方法返回正則表達式對該串的檢驗結果,true表示符合字元串規則,false表示不符合規則 return phone.matches(regex); }
再來一個更複雜的字元串校驗——身份證號碼的格式校驗,中國的二代身份證號碼共有18位,其中前六位是地區編碼,中間八位是公民的出生年月日,後面三位是該地區當日的出生序號,最後一位是校驗碼。國家把各省區劃分為七大塊,地區編碼的首位為1代表華北地區,為2代表東北地區,為3代表華東地區,為4代表中南地區,為5代表西南地區,為6代表西北地區,為8代表港澳台特別行政區。地區編碼的第二位代表大區域下麵的具體省區,再後面的位數表示下麵的地市乃至縣區,通常只要校驗地區編碼的前兩位就行了,於是得到如下的地區校驗的正則方法代碼例子:
// 校驗身份證號碼開頭的六位地區編碼 public static void checkArea() { String regex = "(1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\\d{4}"; for (int i=0; i<=90; i++) { String area = String.format("%06d", i*10000); boolean check = area.matches(regex); System.out.println("area = "+area+", check = "+check); } }
身份證號碼中間的八位出生年月日,可再拆分為四位的年份、兩位的月份和兩位的日期。一個健在公民的出生年份,只可能是二十世紀和二十一世紀的某一年,也就是說,四位年份必定以19或者20開頭,因此正則串“(19|20)\\d{2}”即可覆蓋這兩個世紀的兩百個年份。此時校驗年份的正則方法代碼如下所示:
// 校驗四位的年份字元串 public static void checkYear() { String regex = "(19|20)\\d{2}"; for (int i=1899; i<=2100; i++) { if (i>1910 && i<2090) { continue; } String year = i+""; boolean check = year.matches(regex); System.out.println("year = "+year+", check = "+check); } }
年份校驗完畢,後面的月份更簡單,因為兩位月份就是“01”到“12”中間的十二個數字。如果月份首位是0,那麼第二位可以是1到9;如果月份首位是1,那麼第二位可以是0到2。據此可把月份的正則表達式分解成兩個關係為“或”的子表達式,其中第一個表達式可使用“0[1-9]”,第二個表達式可使用“1[0-2]”,兩個表達式通過豎線連接起來便形成了完整的月份表達式“0[1-9]|1[0-2]”。此時校驗月份的正則方法代碼如下所示:
// 校驗兩位的月份字元串 public static void checkMonth() { String regex = "0[1-9]|1[0-2]"; for (int i=0; i<=13; i++) { String month = String.format("%02d", i); boolean check = month.matches(regex); System.out.println("month = "+month+", check = "+check); } }
月份後面的日期,校驗起來稍微有些複雜。合法的兩位日期可以是“01”到“31”中間的三十一個數字,故而日期的正則校驗需要分解成以下的三種情況:
1、日期首位是0,那麼第二位可以是1到9,該情況的正則表達式應為“0[1-9]”。
2、日期首位是1或者2,那麼第二位可以是0到9,該情況的正則表達式應為“[12]\\d”。
3、日期首位是3,那麼第二位可以是0和1,該情況的正則表達式應為“3[01]”。
綜合以上的三種情況,得到完整的日期校驗正則串為“0[1-9]|[12]\\d|3[01]”。此時校驗日期的正則方法代碼如下所示:
// 校驗兩位的日期字元串 public static void checkDay() { String regex = "0[1-9]|[12]\\d|3[01]"; for (int i=0; i<=32; i++) { String day = String.format("%02d", i); boolean check = day.matches(regex); System.out.println("day = "+day+", check = "+check); } }
然後還要校驗身份證號碼的末尾四位,包括三位的出生編碼和一位的校驗碼。其中出生編碼為三位數字,而校驗碼除了數字以外還可能是小寫的x或者大寫的X,因此出生編碼和校驗碼也得分別加以判斷。三位的出生編碼,對應的正則表達式為“\\d{3}”;一位的校驗碼,對應的正則表達式為“[0-9xX]”;二者的式子合起來,就變成了“\\d{3}([0-9xX])”。下麵的方法代碼可生成四位的字元串,併進行身份證末四位的正則校驗:
// 校驗身份證號碼末尾的四位編號串 public static void checkLastFour() { String regex = "\\d{3}([0-9xX])"; for (int i=0; i<36; i++) { char last; if (i < 10) { // 轉換成數字字元 last = (char) ('0'+i); } else { // 轉換成字母字元 last = (char) ('A' + i-10); } String lastFour = String.format("%03d%c", i*13, last); boolean check = lastFour.matches(regex); System.out.println("lastFour = "+lastFour+", check = "+check); } }
以上把18位身份證號碼的各個區間分別做了正則校驗,最後還要組裝各區間的正則表達式。這時為了避免各區間的表達式互相干擾,可以利用圓括弧將各區間的作用範圍先行界定,就像下麵這樣“(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)”,接著再把各區間的正則表達式分別填入該區間的圓括弧之中,便形成了最終的身份證號碼正則串。包含正則串在內的身份證校驗的完整方法如下所示:
// 利用正則表達式檢查字元串是否為合法的身份證號碼 public static boolean isICNO(String icno) { //String regex = "(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)"; String regex = "((1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\\d{4})((19|20)\\d{2})(0[1-9]|1[0-2])(0[1-9]|[12]\\d|3[01])(\\d{3}([0-9xX]))"; return icno.matches(regex); }
更多Java技術文章參見《Java開發筆記(序)章節目錄》