解決在C#（.net）按位元組數截取字元串最後出現亂碼的問題

-Advertisement-

最近需要用到按位元組數截取字元串。在網上找了很多方法。 Encoding.Default.GetString採用的DefaultEncoding.UTF8.GetBytes採用的是utf-8編碼。這樣當然是亂碼。尤其出現中文時候。對這類數據處理當然要用統一的編碼來處理。例子：1 string msg ...

最近需要用到按位元組數截取字元串。在網上找了很多方法。

Encoding.Default.GetString採用的Default
Encoding.UTF8.GetBytes採用的是utf-8編碼。這樣當然是亂碼。尤其出現中文時候。
對這類數據處理當然要用統一的編碼來處理。

例子：1
string msg= Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(strcode));
例子：2
string strcode="我是小明";
byte[] buffer=Encoding.UTF8.GetBytes(strcode);
string msg= Encoding.UTF8.GetString(buffer,0,buffer.Length);

實際結果是截取的結尾會出現亂碼。原因是最後的字元是多個位元組，被不完整的截取了。

改進後的辦法如下：

        /// <summary>
        /// 按位元組數截取字元串的方法(比SubString好用)
        /// </summary>
        /// <param name="source">要截取的字元串（可空）</param>
        /// <param name="NumberOfBytes">要截取的位元組數</param>
        /// <param name="encoding">System.Text.Encoding</param>
        /// <param name="suffix">結果字元串的尾碼（超出部分顯示為該尾碼）</param>
        /// <returns></returns>
        public static string SubStringByBytes(string source, int NumberOfBytes, System.Text.Encoding encoding, string suffix = "...")
        {
            if(string.IsNullOrWhiteSpace(source) || source.Length == 0)
                return source;

            if(encoding.GetBytes(source).Length <= NumberOfBytes)
                return source;

            long tempLen = 0;
            StringBuilder sb = new StringBuilder();
            foreach(var c in source)
            {
                Char[] _charArr = new Char[] { c };
                byte[] _charBytes = encoding.GetBytes(_charArr);
                if((tempLen + _charBytes.Length) > NumberOfBytes)
                {
                    if(!string.IsNullOrWhiteSpace(suffix))
                        sb.Append(suffix);
                    break;
                }
                else
                {
                    tempLen += _charBytes.Length;
                    sb.Append(encoding.GetString(_charBytes));
                }
            }
            return sb.ToString();
        }
        /// <summary>
        /// 按位元組數截取字元串的方法(比SubString好用)
        /// </summary>
        /// <param name="source">要截取的字元串（可空）</param>
        /// <param name="NumberOfBytes">要截取的位元組數</param>
        /// <param name="encoding">UTF-8，Unicode，GB2312...</param>
        /// <param name="suffix">結果字元串的尾碼（超出部分顯示為該尾碼）</param>
        /// <returns></returns>
        public static string SubStringByBytes(string source, int NumberOfBytes, string encoding = "UTF-8", string suffix = "...")
        {
            return SubStringByBytes(source, NumberOfBytes, Encoding.GetEncoding(encoding), suffix);
        }

原理很簡單，就是截取之前逐個先判斷字元是否超出位元組長度，如果超出則扔掉整個字元。

在JavaScript裡面的Blob對象很容易獲取位元組長度： var len= new Blob(['字元串']).size;

JS代碼是不是比較簡潔？

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Map的四種遍歷

//Map的四種遍歷方法 public static void main(String[] args) { Map<String, String> map = new HashMap<String, String>(); map.put("1", "value1"); map.put("2", "v ...
學習筆記，控制流程

條件語句 if語句： if 判斷語句 elif 判斷語句 else if必須要有，else可寫可不寫，elif可以不寫也可以寫多個三目運算： a = 3 if a>5: print(True） else: print(False) a = 3 True if a > 5 else False 條件 ...
Java程式基礎編程基礎

1.在屏幕上輸出“你好” //Programmer name Helloword.javapublic class Helloword { public static void main(String args[]){ System.out.print("你好！！！"); }} 2. 用if-els ...
AspnetCore 緩存篇

AspnetCore 緩存篇一、緩存的作用怎樣理解緩存：其實所有的程式，架構，優化，線程...等技術手段，最終的目的都是如何使產品快速的響應用戶的操作，提高用戶的體驗性，目標都是為了系統的使用者，緩存的存在也是同樣的道理，緩存常用於存放不經常更改的數據信息，比如，用戶的基礎數據、Token等一 ...
.NET輕量級ORM框架Dapper入門精通

一、課程介紹本次分享課程包含兩個部分《.NET輕量級ORM框架Dapper修煉手冊》和《.NET輕量級ORM框架Dapper葵花寶典》，阿笨將帶領大家一起領略輕量級ORM框架Dapper的魅力。本次分享課程適合人群範圍：一、《.NET輕量級ORM框架Dapper修煉手冊》適合人群如下: 1、我 ...
[第二堂課]c#自學課程(2)

第二章簡單的c#程式 1.註釋 2.命名空間 3.類 4.Main方法 5.標識符及關鍵字 6.c#語句 7.命名規範自拍視頻：百度雲盤：https://pan.baidu.com/s/1D-r7sdtPkZf7_B2WfN8z1Q 密碼：1xrs 課堂筆記：百度雲盤：https://pan.b ...
C#垃圾回收機制

GC的前世與今生雖然本文是以.net作為目標來講述GC，但是GC的概念並非才誕生不久。早在1958年，由鼎鼎大名的圖林獎得主John McCarthy所實現的Lisp語言就已經提供了GC的功能，這是GC的第一次出現。Lisp的程式員認為記憶體管理太重要了，所以不能由程式員自己來管理。但後來的日子里L ...
盤古分詞+一元/二元分詞Lucene

本文參考自：https://blog.csdn.net/mss359681091/article/details/52078147 本文所有需要用到的文件下載包含項目： Lucene配置文件下載本文項目下載Zip 用vs2015創建Windows窗體應用程式，創建好項目時記得將其屬性改為“控制台應 ...