C++獲取含有中文字元的string長度

来源:https://www.cnblogs.com/yuito/archive/2023/01/20/17062709.html
-Advertisement-
Play Games

:前言 造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。 > 開始研究 在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度: #include <stdio.h> #include <strin ...


:前言

造車輪的時候要用到中文字元串的長度辨別,發現char的識別不准,進行了一番研究。


> 開始研究

在Windows下,中文字元在C++中的記憶體占用為2位元組,此時採用字元串長度獲取函數得到的結果會將一個中文字元識別為兩個長度:

#include <stdio.h>
#include <string>
using namespace std;//string在std命名空間中

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為(10)
請按任意鍵繼續. . .

而實際上,字元串的長度為8,並非上述方法的結果10。那麼,如何獲取真正的長度呢?

>> 上手嘗試

其實,我們不妨試試中文字元的值:

char a = '中';
char b = '文';
char c = '字';
char d = '符';
printf("字元‘中’在編碼中的值為%d\n",(int)a);
printf("字元‘文’在編碼中的值為%d\n",(int)b);
printf("字元‘字’在編碼中的值為%d\n",(int)c);
printf("字元‘符’在編碼中的值為%d\n",(int)d);
system("pause");
點擊查看輸出
字元‘中’在編碼中的值為-48
字元‘文’在編碼中的值為-60
字元‘字’在編碼中的值為-42
字元‘符’在編碼中的值為-5
請按任意鍵繼續. . .

試試其他中文字元,也都是負數。

>> 總結歸納

依據這一點,我們便可以做出一個獲取含有中文的字元串長度的函數:

string版:

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

char版: 雖然char數組也可以傳入上面的函數,不過為了避免某些奇葩編譯器,還是再寫了一個函數,即拷即用:

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

不過,char版不可以傳string。

>> 試驗驗證

用前面的示例驗證:

點擊查看代碼
#include <stdio.h>
#include <string>
using namespace std;

int getLength_str(string str)
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
        //負數說明該字元為中文字元,占用兩個位元組,跳過後一個位元組(i++),不進行統計
		count++;
	}
    return count;
}

int getLength_char(char str[])
{
	int count = 0;
	for (int i = 0; str[i]; i++)
	{
		if (str[i] < 0) i++;
		count++;
	}
	return count;
}

int main()
{
	string str = "abc中文def";
	printf("字元串為:%s\n", str.data());//data()函數回傳字元串的指針,與c_str()相同

	int len;
	char str1[50];

	strcpy(str1, str.data());//賦值

	len = strlen(str1);
	printf("字元串的長度為(%d)\n", len);
	//使用strlen函數獲取長度

	len = getLength_char(str1);//len = getLength_str(str1);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	string str2 = str;//也可以用string str2.assign(str),這是string的賦值函數,不過和=沒區別
	len = str2.length();//也可以用len = str2.size();
	printf("字元串的長度為(%d)\n", len);
	//使用string類的長度獲取函數length()

	len = getLength_str(str2);
	printf("字元串的長度為[%d]\n", len);
	//用上面的函數獲取含有中文字元的字元串的真正長度

	system("pause");
}
點擊查看輸出
字元串為:abc中文def 
字元串的長度為(10)
字元串的長度為[8]
字元串的長度為(10)
字元串的長度為[8]
請按任意鍵繼續. . .

這個函數也可以獲取沒有中文字元的字元串長度.


總結

通過對中文字元數值的輸出,從而找到char數組對中文字元串的長度處理解決方法。
當然處理中文字元串最好的方法是轉換成寬位元組,但會比較麻煩。
另外,新版的C++20string好像已經解決了這個長度問題。這篇文是之前在CSDN寫的,當時是不可以的。

另:
字元串轉寬位元組後,採用wcslen(wchar_t*)方法可以準確的讀出寬位元組字元串的字元數(畢竟寬位元組就是為了這事專門設計的)



The End
Yuito 2023


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用子查詢 子查詢 查詢(query) 任何SQL語句都是查詢。但此術語一般指SELECT語句。 SQL還允許創建子查詢(subquery),即嵌套在其他查詢中的查詢。 利用子查詢進行過濾 SELECT cust_id FROM orders WHERE order_num IN (SELECT o ...
  • 比較簡單,只是模擬彩票出數字的過程,不計算單一數字的出現概率。 傳統上來說,每次彩票出號的概率都是獨立事件,單純的在可選數字內隨機實現即可。 本文探索的是實現簡單的預測分析,包含歷史開獎結果的連續事件。 舉例說明:(模擬三個數字,數字區域1-10) 第一次開獎 1,2,3 第二次預測 [4-10] ...
  • 前言 在公司年會期間我做了個抽獎小項目,我把它分享出來,有用得著的可以看下。 瀏覽鏈接:http://xisite.top/original/luck-draw/index.html 項目鏈接:https://gitee.com/xi1213/luck-draw (歡迎star!) 項目截圖: 實現 ...
  • 1、使用 Array.prototype.some() 方法代替 some() 方法會在找到第一個符合條件的元素時停止迴圈。 例如: let array = [1, 2, 3, 4, 5]; array.some(function(element, index, array) { if (eleme ...
  • 本文我們來探討下如何引入分散式鎖解決本地鎖的問題。本篇所有代碼和業務基於我的開源項目 PassJava。 本篇主要內容如下: 一、本地鎖的問題 首先我們來回顧下本地鎖的問題: 目前題目微服務被拆分成了四個微服務。前端請求進來時,會被轉發到不同的微服務。假如前端接收了 10 W 個請求,每個微服務接收 ...
  • 導讀:設計模式能夠幫助我們優化代碼結構,讓代碼更優雅靈活。有哪些常見的設計模式?如何合理運用?本文分享作者對工廠模式、單例模式、裝飾模式、策略模式、代理模式和觀察者模式的理解,介紹每種模式的模式結構、優缺點、適用場景、註意實現及代碼實現。 ...
  • 2023-01-20 一、SpringMVC消息轉換器概述 1、HttpMessageConverter<T> 消息轉換器作用: (1)將java對象與請求報文及響應報文進行相互轉化 (2)使用HttpMessageConverter<T>將請求信息轉化並綁定到處理方法的入參中或將響應結果轉為對應類 ...
  • 準備工作 原材料 Ubuntu 系統(非必須,Windows 也可以,主要是 Ubuntu 適合編譯) OpenCV 3.4.1 壓縮包 OpenCV contrib 3.4.1 壓縮包 MinGW(Windows 上運行 GCC) 版本信息 GCC 版本 7.5.0 G++ 版本 7.5.0 Op ...
一周排行
    -Advertisement-
    Play Games
  • Timer是什麼 Timer 是一種用於創建定期粒度行為的機制。 與標準的 .NET System.Threading.Timer 類相似,Orleans 的 Timer 允許在一段時間後執行特定的操作,或者在特定的時間間隔內重覆執行操作。 它在分散式系統中具有重要作用,特別是在處理需要周期性執行的 ...
  • 前言 相信很多做WPF開發的小伙伴都遇到過表格類的需求,雖然現有的Grid控制項也能實現,但是使用起來的體驗感並不好,比如要實現一個Excel中的表格效果,估計你能想到的第一個方法就是套Border控制項,用這種方法你需要控制每個Border的邊框,並且在一堆Bordr中找到Grid.Row,Grid. ...
  • .NET C#程式啟動閃退,目錄導致的問題 這是第2次踩這個坑了,很小的編程細節,容易忽略,所以寫個博客,分享給大家。 1.第一次坑:是windows 系統把程式運行成服務,找不到配置文件,原因是以服務運行它的工作目錄是在C:\Windows\System32 2.本次坑:WPF桌面程式通過註冊表設 ...
  • 在分散式系統中,數據的持久化是至關重要的一環。 Orleans 7 引入了強大的持久化功能,使得在分散式環境下管理數據變得更加輕鬆和可靠。 本文將介紹什麼是 Orleans 7 的持久化,如何設置它以及相應的代碼示例。 什麼是 Orleans 7 的持久化? Orleans 7 的持久化是指將 Or ...
  • 前言 .NET Feature Management 是一個用於管理應用程式功能的庫,它可以幫助開發人員在應用程式中輕鬆地添加、移除和管理功能。使用 Feature Management,開發人員可以根據不同用戶、環境或其他條件來動態地控制應用程式中的功能。這使得開發人員可以更靈活地管理應用程式的功 ...
  • 在 WPF 應用程式中,拖放操作是實現用戶交互的重要組成部分。通過拖放操作,用戶可以輕鬆地將數據從一個位置移動到另一個位置,或者將控制項從一個容器移動到另一個容器。然而,WPF 中預設的拖放操作可能並不是那麼好用。為瞭解決這個問題,我們可以自定義一個 Panel 來實現更簡單的拖拽操作。 自定義 Pa ...
  • 在實際使用中,由於涉及到不同編程語言之間互相調用,導致C++ 中的OpenCV與C#中的OpenCvSharp 圖像數據在不同編程語言之間難以有效傳遞。在本文中我們將結合OpenCvSharp源碼實現原理,探究兩種數據之間的通信方式。 ...
  • 一、前言 這是一篇搭建許可權管理系統的系列文章。 隨著網路的發展,信息安全對應任何企業來說都越發的重要,而本系列文章將和大家一起一步一步搭建一個全新的許可權管理系統。 說明:由於搭建一個全新的項目過於繁瑣,所有作者將挑選核心代碼和核心思路進行分享。 二、技術選擇 三、開始設計 1、自主搭建vue前端和. ...
  • Csharper中的表達式樹 這節課來瞭解一下表示式樹是什麼? 在C#中,表達式樹是一種數據結構,它可以表示一些代碼塊,如Lambda表達式或查詢表達式。表達式樹使你能夠查看和操作數據,就像你可以查看和操作代碼一樣。它們通常用於創建動態查詢和解析表達式。 一、認識表達式樹 為什麼要這樣說?它和委托有 ...
  • 在使用Django等框架來操作MySQL時,實際上底層還是通過Python來操作的,首先需要安裝一個驅動程式,在Python3中,驅動程式有多種選擇,比如有pymysql以及mysqlclient等。使用pip命令安裝mysqlclient失敗應如何解決? 安裝的python版本說明 機器同時安裝了 ...