java~CompactStrings字元壓縮技術

来源:https://www.cnblogs.com/lori/archive/2023/06/26/17506004.html
-Advertisement-
Play Games

# 概念 在 Java 中,`char` 和 `byte` 類型占用的存儲空間是不同的。 1. `char` 類型:`char` 是 16 位無符號的 Unicode 字元類型,用於表示單個字元。在 Java 中,`char` 類型占用 2 個位元組(16 位)的存儲空間。 2. `byte` 類型: ...


概念

在 Java 中,charbyte 類型占用的存儲空間是不同的。

  1. char 類型:char 是 16 位無符號的 Unicode 字元類型,用於表示單個字元。在 Java 中,char 類型占用 2 個位元組(16 位)的存儲空間。

  2. byte 類型:byte 是 8 位有符號整數類型,表示範圍在 -128 到 127 之間的整數。在 Java 中,byte 類型占用 1 個位元組(8 位)的存儲空間。

需要註意的是,雖然 charbyte 在 Java 中分別占用不同的存儲空間,但它們表示的數據類型和範圍也是不同的。char 用於表示字元,而 byte 用於表示整數。在處理數據時,應根據具體的需求和數據類型選擇合適的類型。

char(0~65535)

char 在 Java 中占用 2 個位元組(16 位)的空間是因為 Java 使用的是 Unicode 字元編碼,其中字元的表示範圍為 0 到 65535(即 2^16-1)。

Unicode 是一種國際標準字元集,為世界上幾乎所有的字元分配了唯一的標識符。它包含了各種語言的字元、符號、表情等。為了能夠表示這麼多的字元,Java 選擇了使用 2 個位元組(16 位)來存儲 char 類型。

Java 的 char 類型使用的是 UTF-16 編碼,它是一種可變長度的編碼方式,可以使用 2 個位元組來表示大部分的字元,但對於一些特殊字元(如表情符號),可能需要使用額外的代碼點進行編碼。

需要註意的是,Unicode 字元集實際上定義了超過 65536 個字元。為了表示超出 65535 的字元,Unicode 使用了一種擴展編碼方式,稱為 UTF-16 編碼。UTF-16 編碼使用了一種叫作代理對(Surrogate Pair)的技術,將一個字元表示為兩個 char 類型的編碼單元。

因此,雖然 char 類型的範圍是 0 到 65535,但實際上可以表示更多的字元。在處理 Unicode 字元時,需要特別註意代理對的處理,以確保正確地處理和顯示字元。

byte(-128~127)

在 Java 中,byte 是一個基本數據類型,用於表示 8 位的有符號整數。它的取值範圍為 -128 到 127。

byte 類型通常用於處理位元組數據,例如讀取和寫入二進位文件、網路傳輸中的位元組流、加密演算法等。由於 byte 類型占用的空間較小,因此在需要節省記憶體或處理位元組級數據的情況下,經常使用 byte 類型。

以下是一些關於 byte 類型的特點和用法:

  1. 取值範圍:byte 類型的取值範圍為 -128 到 127。可以通過 Byte.MIN_VALUEByte.MAX_VALUE 常量來獲取最小值和最大值。

  2. 記憶體占用:byte 類型占用 1 個位元組(8 位)的存儲空間。

  3. 位元組操作:byte 類型適用於處理位元組級數據,例如讀取和寫入二進位文件、網路傳輸中的位元組流等。可以使用輸入輸出流、緩衝流等類來讀寫 byte 數據。

  4. 數組:可以創建 byte 數組來存儲一組位元組數據。例如,byte[] data = new byte[10]; 創建了一個長度為 10 的 byte 數組。

  5. 類型轉換:byte 類型可以與其他整數類型進行相互轉換。可以使用類型轉換運算符(如 (byte) value)將其他整數類型轉換為 byte 類型,或者將 byte 類型轉換為其他整數類型。

需要註意的是,在進行 byte 類型的運算時,會發生整數提升。也就是說,byte 類型的操作數會先被提升為 int 類型,然後進行運算。

byte a = 10;
byte b = 20;
byte c = (byte) (a + b);  // 需要進行類型轉換

總而言之,byte 類型在 Java 中是用於表示 8 位有符號整數的數據類型,適用於處理位元組級數據和節省記憶體的場景。

java9對字元串存儲的優化Compact Strings(緊湊字元串)

Java 9 對字元串的優化主要集中在字元串存儲和處理方面,引入了一項被稱為 Compact Strings(緊湊字元串)的改進。Compact Strings 的目標是減少字元串在記憶體中的占用空間,提高性能和效率。

在 Java 8 及之前的版本中,字元串內部使用 char 數組來存儲字元數據,並使用額外的 int 型欄位記錄字元串的偏移量和長度。這種表示方式在包含大量 ASCII 字元的字元串中會造成空間浪費,因為每個字元仍然占用 2 個位元組的存儲空間。

Java 9 引入了 Compact Strings 的概念,對於僅包含 Latin-1 字元集(即 Unicode 編碼範圍在 U+0000 至 U+00FF 之間)的字元串,使用位元組數組存儲數據,每個字元只占用 1 個位元組。這樣可以大大減少這類字元串的記憶體占用。對於包含非 Latin-1 字元的字元串,仍然使用 char 數組存儲數據,每個字元占用 2 個位元組。

Compact Strings 的優化帶來了兩個主要的好處:

  1. 記憶體占用減少:對於僅包含 Latin-1 字元的字元串,在記憶體中占用的空間減少一半,從而可以降低記憶體消耗。

  2. 性能提升:減少了字元串的記憶體占用,可以減少記憶體的分配和垃圾回收的頻率,從而提高了性能和效率。

需要註意的是,Compact Strings 僅適用於字元串對象的內部表示方式,對於開發者來說,字元串的使用方式和 API 並沒有變化。開發者無需對現有的代碼進行修改,可以繼續使用字元串相關的方法和操作。

這項優化是在底層實現層面上進行的,旨在提高 Java 運行時的性能和記憶體利用率,使開發者能夠更高效地處理字元串數據。

-XX:+CompactStrings

在 Java 命令行啟動時,可以通過使用 -XX:+CompactStrings 參數來開啟 Compact Strings。該參數告訴 Java 虛擬機在啟動時啟用緊湊字元串(Compact Strings)優化。

以下是使用 Java 命令行啟動並開啟 Compact Strings 的示例:

java -XX:+CompactStrings -jar YourJarFile.jar

在上述示例中,-XX:+CompactStrings 參數指示 Java 虛擬機開啟 Compact Strings 優化。-jar YourJarFile.jar 部分是指定要執行的 JAR 文件。

請註意,Compact Strings 優化是預設開啟的,可以在不使用 -XX:+CompactStrings 參數的情況下自動啟用。但如果需要明確指定開啟或禁用 Compact Strings,可以使用相應的命令行參數。

作者:倉儲大叔,張占嶺,
榮譽:微軟MVP
QQ:853066980

支付寶掃一掃,為大叔打賞!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## SSL 簡介 SSL(Secure Socket Layer,安全套接字層)是一種保證網路上的兩個節點進行安全通信的協議。IETF(Interet Engineering Task Force)國際組織對 SSL 作了標準化,制定了 RFC2246 規範,並將其稱為傳輸層安全(Transpor ...
  • 博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
  • ### 序 前面介紹了k8s組件和對象的一些基本概念,瞭解了k8s具體是做什麼的以及架構,那麼接下來我們開始介紹怎麼去安裝k8s,這裡我們以windows為例,其他平臺可以參考Kubernetes官方文檔,其實安裝方式都是類似的。 ### 先決條件 要在系統中安裝 Kubernetes,以下是一些需 ...
  • 某日二師兄參加XXX科技公司的C++工程師開發崗位第26面: > 面試官:`deque`用過嗎? > > 二師兄:說實話,很少用,基本沒用過。 > > 面試官:為什麼? > > 二師兄:因為使用它的場景很少,大部分需要性能、且需要自動擴容的時候使用`vector`,需要隨機插入和刪除的時候可以使用` ...
  • ## java獲取cpu核心數目 >```java >int processors = Runtime.getRuntime().availableProcessors(); >``` ...
  • > 本文首發於公眾號:Hunter後端 > 原文鏈接:[celery筆記八之資料庫操作定時任務](https://mp.weixin.qq.com/s/iM0VxVMagmRNeG2VIc01pg) 前面我們介紹定時任務是在 celery.py 中的 `app.conf.beat_schedule` ...
  • > 本文節選自筆者博客:[https://www.blog.zeeland.cn/archives/019hasaa](https://www.blog.zeeland.cn/archives/019hasaa) # 前言 如果你經常閱讀論文,那麼你肯定會遇到以下幾個問題: - 論文晦澀難懂看不明白 ...
  • 本文將通過閱讀AnnotationConfigApplicationContext源碼,分析Spring啟動流程。 # 創建AnnotationConfigApplicationContext ```java AnnotationConfigApplicationContext applicatio ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...