C++獲取含有中文字元的string長度

来源:https://www.cnblogs.com/yuito/archive/2023/01/20/17062709.html
-Advertisement-
Play Games

:前言 造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。 > 開始研究 在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度: #include <stdio.h> #include <strin ...


:前言

造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。


> 開始研究

在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度:

#include <stdio.h>
#include <string>
using namespace std;//string在std命名空間中

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為(10)
請按任意鍵繼續. . .

而實際上,字元串的長度為8,並非上述方法的結果10。那麼,如何獲取真正的長度呢?

>> 上手嘗試

其實,我們不妨試試中文字元的值:

char a = '中';
char b = '文';
char c = '字';
char d = '符';
printf("字元‘中’在編碼中的值為%d\n",(int)a);
printf("字元‘文’在編碼中的值為%d\n",(int)b);
printf("字元‘字’在編碼中的值為%d\n",(int)c);
printf("字元‘符’在編碼中的值為%d\n",(int)d);
system("pause");
點擊查看輸出
字元‘中’在編碼中的值為-48
字元‘文’在編碼中的值為-60
字元‘字’在編碼中的值為-42
字元‘符’在編碼中的值為-5
請按任意鍵繼續. . .

試試其他中文字元,也都是負數。

>> 總結歸納

依據這一點,我們便可以做出一個獲取含有中文的字元串長度的函數:

string版:

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

char版: 雖然char數組也可以傳入上面的函數,不過為了避免某些奇葩編譯器,還是再寫了一個函數,即拷即用:

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

不過,char版不可以傳string。

>> 試驗驗證

用前面的示例驗證:

點擊查看代碼
#include <stdio.h>
#include <string>
using namespace std;

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	len = getLength_char(str1);//len = getLength_str(str1);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	len = getLength_str(str2);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為[8]
字元串的長度為(10)
字元串的長度為[8]
請按任意鍵繼續. . .

這個函數也可以獲取沒有中文字元的字元串長度.


總結

通過對中文字元數值的輸出,從而找到char數組對中文字元串的長度處理解決方法。
當然處理中文字元串最好的方法是轉換成寬位元組,但會比較麻煩。
另外,新版的C++20string好像已經解決了這個長度問題。這篇文是之前在CSDN寫的,當時是不可以的。

另:
字元串轉寬位元組後,採用wcslen(wchar_t*)方法可以準確的讀出寬位元組字元串的字元數(畢竟寬位元組就是為了這事專門設計的)



The End
Yuito 2023


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用子查詢 子查詢 查詢(query) 任何SQL語句都是查詢。但此術語一般指SELECT語句。 SQL還允許創建子查詢(subquery),即嵌套在其他查詢中的查詢。 利用子查詢進行過濾 SELECT cust_id FROM orders WHERE order_num IN (SELECT o ...
  • 比較簡單,只是模擬彩票出數字的過程,不計算單一數字的出現概率。 傳統上來說,每次彩票出號的概率都是獨立事件,單純的在可選數字內隨機實現即可。 本文探索的是實現簡單的預測分析,包含歷史開獎結果的連續事件。 舉例說明:(模擬三個數字,數字區域1-10) 第一次開獎 1,2,3 第二次預測 [4-10] ...
  • 前言 在公司年會期間我做了個抽獎小項目,我把它分享出來,有用得著的可以看下。 瀏覽鏈接:http://xisite.top/original/luck-draw/index.html 項目鏈接:https://gitee.com/xi1213/luck-draw (歡迎star!) 項目截圖: 實現 ...
  • 1、使用 Array.prototype.some() 方法代替 some() 方法會在找到第一個符合條件的元素時停止迴圈。 例如: let array = [1, 2, 3, 4, 5]; array.some(function(element, index, array) { if (eleme ...
  • 本文我們來探討下如何引入分散式鎖解決本地鎖的問題。本篇所有代碼和業務基於我的開源項目 PassJava。 本篇主要內容如下: 一、本地鎖的問題 首先我們來回顧下本地鎖的問題: 目前題目微服務被拆分成了四個微服務。前端請求進來時,會被轉發到不同的微服務。假如前端接收了 10 W 個請求,每個微服務接收 ...
  • 導讀:設計模式能夠幫助我們優化代碼結構,讓代碼更優雅靈活。有哪些常見的設計模式?如何合理運用?本文分享作者對工廠模式、單例模式、裝飾模式、策略模式、代理模式和觀察者模式的理解,介紹每種模式的模式結構、優缺點、適用場景、註意實現及代碼實現。 ...
  • 2023-01-20 一、SpringMVC消息轉換器概述 1、HttpMessageConverter<T> 消息轉換器作用: (1)將java對象與請求報文及響應報文進行相互轉化 (2)使用HttpMessageConverter<T>將請求信息轉化並綁定到處理方法的入參中或將響應結果轉為對應類 ...
  • 準備工作 原材料 Ubuntu 系統(非必須,Windows 也可以,主要是 Ubuntu 適合編譯) OpenCV 3.4.1 壓縮包 OpenCV contrib 3.4.1 壓縮包 MinGW(Windows 上運行 GCC) 版本信息 GCC 版本 7.5.0 G++ 版本 7.5.0 Op ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...