最近需要用到按位元組數截取字元串。在網上找了很多方法。 Encoding.Default.GetString採用的DefaultEncoding.UTF8.GetBytes採用的是utf-8編碼。這樣當然是亂碼。尤其出現中文時候。對這類數據處理當然要用統一的編碼來處理。 例子:1 string msg ...
最近需要用到按位元組數截取字元串。在網上找了很多方法。
Encoding.Default.GetString採用的Default
Encoding.UTF8.GetBytes採用的是utf-8編碼。這樣當然是亂碼。尤其出現中文時候。
對這類數據處理當然要用統一的編碼來處理。
例子:1
string msg= Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(strcode));
例子:2
string strcode="我是小明";
byte[] buffer=Encoding.UTF8.GetBytes(strcode);
string msg= Encoding.UTF8.GetString(buffer,0,buffer.Length);
實際結果是截取的結尾會出現亂碼。原因是最後的字元是多個位元組,被不完整的截取了。
改進後的辦法如下:
/// <summary> /// 按位元組數截取字元串的方法(比SubString好用) /// </summary> /// <param name="source">要截取的字元串(可空)</param> /// <param name="NumberOfBytes">要截取的位元組數</param> /// <param name="encoding">System.Text.Encoding</param> /// <param name="suffix">結果字元串的尾碼(超出部分顯示為該尾碼)</param> /// <returns></returns> public static string SubStringByBytes(string source, int NumberOfBytes, System.Text.Encoding encoding, string suffix = "...") { if(string.IsNullOrWhiteSpace(source) || source.Length == 0) return source; if(encoding.GetBytes(source).Length <= NumberOfBytes) return source; long tempLen = 0; StringBuilder sb = new StringBuilder(); foreach(var c in source) { Char[] _charArr = new Char[] { c }; byte[] _charBytes = encoding.GetBytes(_charArr); if((tempLen + _charBytes.Length) > NumberOfBytes) { if(!string.IsNullOrWhiteSpace(suffix)) sb.Append(suffix); break; } else { tempLen += _charBytes.Length; sb.Append(encoding.GetString(_charBytes)); } } return sb.ToString(); } /// <summary> /// 按位元組數截取字元串的方法(比SubString好用) /// </summary> /// <param name="source">要截取的字元串(可空)</param> /// <param name="NumberOfBytes">要截取的位元組數</param> /// <param name="encoding">UTF-8,Unicode,GB2312...</param> /// <param name="suffix">結果字元串的尾碼(超出部分顯示為該尾碼)</param> /// <returns></returns> public static string SubStringByBytes(string source, int NumberOfBytes, string encoding = "UTF-8", string suffix = "...") { return SubStringByBytes(source, NumberOfBytes, Encoding.GetEncoding(encoding), suffix); }
原理很簡單,就是截取之前逐個先判斷字元是否超出位元組長度,如果超出則扔掉整個字元。
在JavaScript裡面的Blob對象很容易獲取位元組長度: var len= new Blob(['字元串']).size;
JS代碼是不是比較簡潔?