C++獲取含有中文字元的string長度

来源:https://www.cnblogs.com/yuito/archive/2023/01/20/17062709.html
-Advertisement-
Play Games

:前言 造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。 > 開始研究 在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度: #include <stdio.h> #include <strin ...


:前言

造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。


> 開始研究

在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度:

#include <stdio.h>
#include <string>
using namespace std;//string在std命名空間中

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為(10)
請按任意鍵繼續. . .

而實際上,字元串的長度為8,並非上述方法的結果10。那麼,如何獲取真正的長度呢?

>> 上手嘗試

其實,我們不妨試試中文字元的值:

char a = '中';
char b = '文';
char c = '字';
char d = '符';
printf("字元‘中’在編碼中的值為%d\n",(int)a);
printf("字元‘文’在編碼中的值為%d\n",(int)b);
printf("字元‘字’在編碼中的值為%d\n",(int)c);
printf("字元‘符’在編碼中的值為%d\n",(int)d);
system("pause");
點擊查看輸出
字元‘中’在編碼中的值為-48
字元‘文’在編碼中的值為-60
字元‘字’在編碼中的值為-42
字元‘符’在編碼中的值為-5
請按任意鍵繼續. . .

試試其他中文字元,也都是負數。

>> 總結歸納

依據這一點,我們便可以做出一個獲取含有中文的字元串長度的函數:

string版:

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

char版: 雖然char數組也可以傳入上面的函數,不過為了避免某些奇葩編譯器,還是再寫了一個函數,即拷即用:

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

不過,char版不可以傳string。

>> 試驗驗證

用前面的示例驗證:

點擊查看代碼
#include <stdio.h>
#include <string>
using namespace std;

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	len = getLength_char(str1);//len = getLength_str(str1);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	len = getLength_str(str2);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為[8]
字元串的長度為(10)
字元串的長度為[8]
請按任意鍵繼續. . .

這個函數也可以獲取沒有中文字元的字元串長度.


總結

通過對中文字元數值的輸出,從而找到char數組對中文字元串的長度處理解決方法。
當然處理中文字元串最好的方法是轉換成寬位元組,但會比較麻煩。
另外,新版的C++20string好像已經解決了這個長度問題。這篇文是之前在CSDN寫的,當時是不可以的。

另:
字元串轉寬位元組後,採用wcslen(wchar_t*)方法可以準確的讀出寬位元組字元串的字元數(畢竟寬位元組就是為了這事專門設計的)



The End
Yuito 2023


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用子查詢 子查詢 查詢(query) 任何SQL語句都是查詢。但此術語一般指SELECT語句。 SQL還允許創建子查詢(subquery),即嵌套在其他查詢中的查詢。 利用子查詢進行過濾 SELECT cust_id FROM orders WHERE order_num IN (SELECT o ...
  • 比較簡單,只是模擬彩票出數字的過程,不計算單一數字的出現概率。 傳統上來說,每次彩票出號的概率都是獨立事件,單純的在可選數字內隨機實現即可。 本文探索的是實現簡單的預測分析,包含歷史開獎結果的連續事件。 舉例說明:(模擬三個數字,數字區域1-10) 第一次開獎 1,2,3 第二次預測 [4-10] ...
  • 前言 在公司年會期間我做了個抽獎小項目,我把它分享出來,有用得著的可以看下。 瀏覽鏈接:http://xisite.top/original/luck-draw/index.html 項目鏈接:https://gitee.com/xi1213/luck-draw (歡迎star!) 項目截圖: 實現 ...
  • 1、使用 Array.prototype.some() 方法代替 some() 方法會在找到第一個符合條件的元素時停止迴圈。 例如: let array = [1, 2, 3, 4, 5]; array.some(function(element, index, array) { if (eleme ...
  • 本文我們來探討下如何引入分散式鎖解決本地鎖的問題。本篇所有代碼和業務基於我的開源項目 PassJava。 本篇主要內容如下: 一、本地鎖的問題 首先我們來回顧下本地鎖的問題: 目前題目微服務被拆分成了四個微服務。前端請求進來時,會被轉發到不同的微服務。假如前端接收了 10 W 個請求,每個微服務接收 ...
  • 導讀:設計模式能夠幫助我們優化代碼結構,讓代碼更優雅靈活。有哪些常見的設計模式?如何合理運用?本文分享作者對工廠模式、單例模式、裝飾模式、策略模式、代理模式和觀察者模式的理解,介紹每種模式的模式結構、優缺點、適用場景、註意實現及代碼實現。 ...
  • 2023-01-20 一、SpringMVC消息轉換器概述 1、HttpMessageConverter<T> 消息轉換器作用: (1)將java對象與請求報文及響應報文進行相互轉化 (2)使用HttpMessageConverter<T>將請求信息轉化並綁定到處理方法的入參中或將響應結果轉為對應類 ...
  • 準備工作 原材料 Ubuntu 系統(非必須,Windows 也可以,主要是 Ubuntu 適合編譯) OpenCV 3.4.1 壓縮包 OpenCV contrib 3.4.1 壓縮包 MinGW(Windows 上運行 GCC) 版本信息 GCC 版本 7.5.0 G++ 版本 7.5.0 Op ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...