php正則表達匹配中文問題分析

来源:http://www.cnblogs.com/shouce/archive/2016/03/17/5285962.html
-Advertisement-
Play Games

運行一下上面這段代碼,看會有什麼提示信息? Warning: preg_match(): Compilation failed: PCRE does not support L, l, N, P, p, U, u, or X at offset 3 in F:http://www.hzhuti.co


$str = '中華人民共和國123456789abcdefg';
echo preg_match("/^[u4e00-u9fa5_a-zA-Z0-9]{3,15}$",$strName);



 

運行一下上面這段代碼,看會有什麼提示信息?
 
Warning: preg_match(): Compilation failed: PCRE does not support L, l, N, P, p, U, u, or X at offset 3 in F:http://www.hzhuti.com/nokia/5800/ on line 2
原來,PHP正則表達式中不支持下列 Perl 轉義序列:L, l, N, P, p, U, u, or X

在 UTF-8 模式下,允許用“x{...}”,花括弧中的內容是表示十六進位數字的字元串。

原來的十六進位轉義序列 xhh 如果其值大於 127 的話則匹配了一個雙位元組 UTF-8 字元。
所以,
可以這樣來解決

preg_match("/^[x80-xff_a-zA-Z0-9]{3,15}$",$strName);


preg_match('/[x{2460}-x{2468}]/u', $str);


 

匹配 內碼漢字
按照他提供的方式進行測試,代碼如下:

 代碼如下 複製代碼 

$str = "php編程";
if (preg_match("/^[x{2460}-x{2468}]+$/u",$str)) {
print("該字元串全部是中文");
} else {
print("該字元串不全部是中文");
}


 

發現這次依然對是否為中文判斷失常。不過,既然x表示的十六進位數據,為什麼和js裡邊提供的範圍x4e00-x9fa5不一樣呢?於是我就換成了下邊的代碼:

$str = "php編程";
if (preg_match("/^[x4e00-x9fa5]+$/u",$str)) {
print("該字元串全部是中文");
} else {
print("該字元串不全部是中文");
}


 

本來以為鐵定成功了的事情,沒想到,warning又一次產生了:
Warning: preg_match() [function.preg-match]: Compilation failed: invalid UTF-8 string at offset 6 in test.php on line 3

看來又有錯誤的表達方式了,於是對照了一下那篇文章的表達方式,給“4e00”和“9fa5”兩邊分別用"{"和“}”包起來,跑了一遍,發現真的準確了:

複製代碼
$str = "php編程";
if (preg_match("/^[x{4e00}-x{9fa5}]+$/u",$str)) {
print("該字元串全部是中文");
} else {
print("該字元串不全部是中文");
}
複製代碼


知道了php中utf-8編碼下用正則表達式匹配漢字的最終正確表達式——/^[x{4e00}-x{9fa5}]+$/u,

最後總結出

//if (preg_match(“/^[".chr(0xa1)."-".chr(0xff)."]+$/”, $str)) { //只能在GB2312情況下使用
if (preg_match(“/^[x7f-xff]+$/”, $str)) { //相容gb2312,utf-8
echo “正確輸入”;
} else {
echo “錯誤輸入”;
}


 

雙位元組字元編碼範圍

1. GBK (GB2312/GB18030)
x00-xff GBK雙位元組編碼範圍
x20-x7f ASCII
xa1-xff 中文 gb2312
x80-xff 中文 gbk

2. UTF-8 (Unicode)

u4e00-u9fa5 (中文)
x3130-x318F (韓文
xAC00-xD7A3 (韓文)
u0800-u4e00 (日文)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在ASP.NET MVC開發過程中,Insus.NET需要獲取當前視圖的Action名。有了這個Action名,就可以在同一個控制器所有視圖做一個Active的功能。如果你的開發環境是ASP.NET MVC 4.5的話,可以使用下麵的語法:ViewContext.RouteData.Values["
  • 分享一個asp.net 導出假Excel代碼。優點,不用藉助於任何插件比如(NPOI),複製代碼,修改grid.DataSource直接導出。 先看導出後的效果圖
  • 在Razor中,有HTML.ActionLink和 Url.Action來呈現鏈接。它們有什麼區別呢。能分清了,就知道在什麼情況之下使用它們了。首先來看html.ActionLink,這個方法重載挺多的,最終生成一個<a href=".."></a>標記。如果沒有指定controller,則預設為本
  • 內聯函數的用處: 用空間換取時間,在調用時不用每次都寫調用的彙編。 什麼時候內聯: 比較小的函數:只有兩三行 在迴圈里迴圈調用的函數 什麼時候不內聯: 比較大的函數,2、30行的 遞歸的函數
  • 轉發自:http://blog.csdn.net/ligang7560/article/details/50890282 單例模式的多種實現方式 我們都知道單例模式有幾種常用的寫法: 餓漢模式 懶漢模式 雙重校驗鎖 靜態內部類 靜態代碼塊 我們來看一下這幾種模式在多線程的場景中,能否保持單例 1.餓
  • 繼續更新有關重構的博客,前三篇是關於類、函數和數據的重構的博客,內容還算比較充實吧。今天繼續更新,本篇博客的主題是關於條件表達式的重構規則。有時候在實現比較複雜的業務邏輯時,各種條件各種嵌套。如果處理不好的話,代碼看上去會非常的糟糕,而且業務邏輯看上去會非常混亂。今天就通過一些重構規則來對條件表達式
  • 原題重述:(點擊圖片可以進入來源鏈接) 這到題目的中文解釋是, 輸入一個數組,例如{-1 0 1 2 -1 -4},從數組中找三個數(a,b,c),使得其和0,輸出所有的(a,b,c)組合。 要求abc不能重覆,並且a<=b<=c。 拿到這個題目的時候,其實每個程式猿都能想到如下的演算法,也就是暴力破
  • 正則表達式並不是Python的一部分。正則表達式是用於處理字元串的強大工具,擁有自己獨特的語法以及一個獨立的處理引擎,效率上可能不如str自帶的方法,但功能十分強大。得益於這一點,在提供了正則表達式的語言里,正則表達式的語法都是一樣的,區別隻在於不同的編程語言實現支持的語法數量不同;但不用擔心,不被
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...