C++獲取含有中文字元的string長度

来源:https://www.cnblogs.com/yuito/archive/2023/01/20/17062709.html
-Advertisement-
Play Games

:前言 造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。 > 開始研究 在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度: #include <stdio.h> #include <strin ...


:前言

造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。


> 開始研究

在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度:

#include <stdio.h>
#include <string>
using namespace std;//string在std命名空間中

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為(10)
請按任意鍵繼續. . .

而實際上,字元串的長度為8,並非上述方法的結果10。那麼,如何獲取真正的長度呢?

>> 上手嘗試

其實,我們不妨試試中文字元的值:

char a = '中';
char b = '文';
char c = '字';
char d = '符';
printf("字元‘中’在編碼中的值為%d\n",(int)a);
printf("字元‘文’在編碼中的值為%d\n",(int)b);
printf("字元‘字’在編碼中的值為%d\n",(int)c);
printf("字元‘符’在編碼中的值為%d\n",(int)d);
system("pause");
點擊查看輸出
字元‘中’在編碼中的值為-48
字元‘文’在編碼中的值為-60
字元‘字’在編碼中的值為-42
字元‘符’在編碼中的值為-5
請按任意鍵繼續. . .

試試其他中文字元,也都是負數。

>> 總結歸納

依據這一點,我們便可以做出一個獲取含有中文的字元串長度的函數:

string版:

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

char版: 雖然char數組也可以傳入上面的函數,不過為了避免某些奇葩編譯器,還是再寫了一個函數,即拷即用:

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

不過,char版不可以傳string。

>> 試驗驗證

用前面的示例驗證:

點擊查看代碼
#include <stdio.h>
#include <string>
using namespace std;

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	len = getLength_char(str1);//len = getLength_str(str1);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	len = getLength_str(str2);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為[8]
字元串的長度為(10)
字元串的長度為[8]
請按任意鍵繼續. . .

這個函數也可以獲取沒有中文字元的字元串長度.


總結

通過對中文字元數值的輸出,從而找到char數組對中文字元串的長度處理解決方法。
當然處理中文字元串最好的方法是轉換成寬位元組,但會比較麻煩。
另外,新版的C++20string好像已經解決了這個長度問題。這篇文是之前在CSDN寫的,當時是不可以的。

另:
字元串轉寬位元組後,採用wcslen(wchar_t*)方法可以準確的讀出寬位元組字元串的字元數(畢竟寬位元組就是為了這事專門設計的)



The End
Yuito 2023


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用子查詢 子查詢 查詢(query) 任何SQL語句都是查詢。但此術語一般指SELECT語句。 SQL還允許創建子查詢(subquery),即嵌套在其他查詢中的查詢。 利用子查詢進行過濾 SELECT cust_id FROM orders WHERE order_num IN (SELECT o ...
  • 比較簡單,只是模擬彩票出數字的過程,不計算單一數字的出現概率。 傳統上來說,每次彩票出號的概率都是獨立事件,單純的在可選數字內隨機實現即可。 本文探索的是實現簡單的預測分析,包含歷史開獎結果的連續事件。 舉例說明:(模擬三個數字,數字區域1-10) 第一次開獎 1,2,3 第二次預測 [4-10] ...
  • 前言 在公司年會期間我做了個抽獎小項目,我把它分享出來,有用得著的可以看下。 瀏覽鏈接:http://xisite.top/original/luck-draw/index.html 項目鏈接:https://gitee.com/xi1213/luck-draw (歡迎star!) 項目截圖: 實現 ...
  • 1、使用 Array.prototype.some() 方法代替 some() 方法會在找到第一個符合條件的元素時停止迴圈。 例如: let array = [1, 2, 3, 4, 5]; array.some(function(element, index, array) { if (eleme ...
  • 本文我們來探討下如何引入分散式鎖解決本地鎖的問題。本篇所有代碼和業務基於我的開源項目 PassJava。 本篇主要內容如下: 一、本地鎖的問題 首先我們來回顧下本地鎖的問題: 目前題目微服務被拆分成了四個微服務。前端請求進來時,會被轉發到不同的微服務。假如前端接收了 10 W 個請求,每個微服務接收 ...
  • 導讀:設計模式能夠幫助我們優化代碼結構,讓代碼更優雅靈活。有哪些常見的設計模式?如何合理運用?本文分享作者對工廠模式、單例模式、裝飾模式、策略模式、代理模式和觀察者模式的理解,介紹每種模式的模式結構、優缺點、適用場景、註意實現及代碼實現。 ...
  • 2023-01-20 一、SpringMVC消息轉換器概述 1、HttpMessageConverter<T> 消息轉換器作用: (1)將java對象與請求報文及響應報文進行相互轉化 (2)使用HttpMessageConverter<T>將請求信息轉化並綁定到處理方法的入參中或將響應結果轉為對應類 ...
  • 準備工作 原材料 Ubuntu 系統(非必須,Windows 也可以,主要是 Ubuntu 適合編譯) OpenCV 3.4.1 壓縮包 OpenCV contrib 3.4.1 壓縮包 MinGW(Windows 上運行 GCC) 版本信息 GCC 版本 7.5.0 G++ 版本 7.5.0 Op ...
一周排行
    -Advertisement-
    Play Games
  • 隨著Aspire發佈preview5的發佈,Microsoft.Extensions.ServiceDiscovery隨之更新, 服務註冊發現這個屬於老掉牙的話題解決什麼問題就不贅述了,這裡主要講講Microsoft.Extensions.ServiceDiscovery(preview5)以及如何 ...
  • 概述:通過使用`SemaphoreSlim`,可以簡單而有效地限制非同步HTTP請求的併發量,確保在任何給定時間內不超過20個網頁同時下載。`ParallelOptions`不適用於非同步操作,但可考慮使用`Parallel.ForEach`,儘管在非同步場景中謹慎使用。 對於併發非同步 I/O 操作的數量 ...
  • 1.Linux上安裝Docken 伺服器系統版本以及內核版本:cat /etc/redhat-release 查看伺服器內核版本:uname -r 安裝依賴包:yum install -y yum-utils device-mapper-persistent-data lvm2 設置阿裡雲鏡像源:y ...
  • 概述:WPF界面綁定和渲染大量數據可能導致性能問題。通過啟用UI虛擬化、非同步載入和數據分頁,可以有效提高界面響應性能。以下是簡單示例演示這些優化方法。 在WPF中,當你嘗試綁定和渲染大量的數據項時,性能問題可能出現。以下是一些可能導致性能慢的原因以及優化方法: UI 虛擬化: WPF提供了虛擬化技術 ...
  • 引言 上一章節介紹了 TDD 的三大法則,今天我們講一下在單元測試中模擬對象的使用。 Fake Fake - Fake 是一個通用術語,可用於描述 stub或 mock 對象。 它是 stub 還是 mock 取決於使用它的上下文。 也就是說,Fake 可以是 stub 或 mock Mock - ...
  • 為.net6在CentOS7上面做準備,先在vmware虛擬機安裝CentOS 7.9 新建CentOS764位的系統 因為CentOS8不更新了,所以安裝7;簡單就一筆帶過了 選擇下載好的操作系統的iso文件,下載地址https://mirrors.aliyun.com/centos/7.9.20 ...
  • 經過前面幾篇的學習,我們瞭解到指令的大概分類,如:參數載入指令,該載入指令以 Ld 開頭,將參數載入到棧中,以便於後續執行操作命令。參數存儲指令,其指令以 St 開頭,將棧中的數據,存儲到指定的變數中,以方便後續使用。創建實例指令,其指令以 New 開頭,用於在運行時動態生成並初始化對象。方法調用指... ...
  • LiteDB 是一個輕量級的嵌入式 NoSQL 資料庫,其設計理念與 MongoDB 類似,但它是完全使用 C# 開發的,因此與 C# 應用程式的集成非常順暢。與 SQLite 相比,LiteDB 提供了 NoSQL(即鍵值對)的數據存儲方式,並且是一個開源且免費的項目。它適用於桌面、移動以及 We ...
  • 1 開源解析和拆分文檔 第三方的工具去對文件解析拆分,去將我們的文件內容給提取出來,並將我們的文檔內容去拆分成一個小的chunk。常見的PDF word mark down, JSON、HTML。都可以有很好的一些模塊去把這些文件去進行一個東西去提取。 優勢 支持豐富的文檔類型 每種文檔多樣化選擇 ...
  • OOM是什麼?英文全稱為 OutOfMemoryError(記憶體溢出錯誤)。當程式發生OOM時,如何去定位導致異常的代碼還是挺麻煩的。 要檢查OOM發生的原因,首先需要瞭解各種OOM情況下會報的異常信息。這樣能縮小排查範圍,再結合異常堆棧、heapDump文件、JVM分析工具和業務代碼來判斷具體是哪 ...