Java IO(1)基礎知識——位元組與字元

来源:http://www.cnblogs.com/yulinfeng/archive/2017/11/25/7896470.html
-Advertisement-
Play Games

正所謂怕什麼來什麼,這是知名的“墨菲定律”。Java基礎涵蓋各個方面,敢說Java基礎扎實的人不是剛畢業的學生,就是工作N年的程式員。工作N年的程式員甚至也不敢人人都說Java基礎扎實,甚至精通,往往只是“無他唯熟爾”——熟手而已。 IO這塊我確實怕,它不難,只有兩個方面:輸入/輸出。但你說它用得多 ...


  正所謂怕什麼來什麼,這是知名的“墨菲定律”。Java基礎涵蓋各個方面,敢說Java基礎扎實的人不是剛畢業的學生,就是工作N年的程式員。工作N年的程式員甚至也不敢人人都說Java基礎扎實,甚至精通,往往只是“無他唯熟爾”——熟手而已。

  IO這塊我確實怕,它不難,只有兩個方面:輸入/輸出。但你說它用得多不多,我相信沒有你寫的併發多,併發往往是處處可見,寫著寫著就熟了,而IO卻往往只是某個模塊會涉及,所以也就並不是每個程式員在開發維護自己的模塊時都會用到有關IO的API,而碰到的時候常常陷入窘迫,不知道怎麼寫。

  我想研究IO這塊願意正是想鞏固自己的Java基礎,並希望能成為精通Java的那個人。 本文作為Java IO系列的開篇,首先要介紹幾個概念:位元組與字元。原因在於,Java IO的API分為位元組流和字元流,瞭解什麼是位元組和字元有助於我們後續IO的理解。

位元組(Byte)

  電腦中存儲數據的一個單位。比它小的是位(bit,也叫比特),這是在電腦中數據存儲的最小計量單位,1位存放的是二進位的數據0和1,如下所示。

  當然比位元組更大的是KB(千位元組),1KB = 1024B,再到後面就是MB(兆位元組),1MB = 1024KB,GB、TB……

  Java中有用於表示位元組的數據類型——byte,再次不妨回顧下有關在Java中有關byte的一些知識。

  前面提到1個位元組等於8個二進位位,那麼也就是說1個位元組能表示的最大數為[0, 255](閉區間),但是,在Java中byte類型是有符號型的,也就是說在它的最高位是符號位。也就是說除去最高位符號位,還剩下7個二進位位,那麼7個二進位所能表示的最大數為[0, 127],這是正數,加上最高位為1表示負數時,byte型數據類型所能表示的最大數為[-127, 0],也就是說byte型的數據範圍是[-127, 127],真的是這樣嗎?錯了。上面的分析是錯誤的。Java中byte型數據類型的取值範圍為[-128, 127]。

  錯誤的原因是沒有考慮到電腦中數值存儲的編碼問題。所以這又會繼續延伸到原碼、反碼、補碼的概念。

  • 原碼:最高位表示符號位,0表示正數,1表示負數,其餘位表示真實數值。前面的錯誤分析正是將電腦中數值存儲定義為了原碼,所以才會得到Java中byte型數據類型的取值範圍是[-127, 127]。
  • 反碼:同樣最高位表示符號位,正數的反碼與原碼相同,而負數的反碼除符號位外,其餘位取反。
  • 補碼:同樣最高位表示符號位,正數的反碼與原碼相同,而負數的補碼除符號位外,其餘位取反+1。電腦中數值的存儲正是補碼。

  可以通過程式來觀察體會,電腦中數值存儲是通過補碼來存儲的。

System.out.println("正數3的二進位原碼為:11,其補碼與原碼相同為:" + Integer.toBinaryString(3));
System.out.println("負數-3的二進位原碼為:111,其補碼與為(int型占4bytes=32bits,只看最後的3位):" + Integer.toBinaryString(-3) + "(不信將最後三位補碼-1取反得到原碼)");

   通過運算結果可以看到,電腦中的數值確實是以補碼方式存儲的。

  在瞭解了原碼、反碼、補碼,以及知道電腦中數值是以補碼方式存儲過後,現在回到Java中byte型數據類型的範圍上來。就算是以補碼方式的存儲,可以確定的是在byte型數組中正數(最高位為0)的範圍是[0, 127]一共128個數,那麼負數(最高位為1)的原碼範圍則是[-127, -0],二進位也就是[11111111, 10000000],註意這是原碼,並且這個地方有點衝突,也就是出現了-0這種表示,這顯然是不合理的或者說0已經在正數中已經包括了,在這裡實際上byte型數組做了一定的處理,也就是把把-0的補碼當做了-128,-0的原碼是10000000,它的反碼則是11111111,它的補碼則還是10000000,反碼+1過後需要進位,但是最高位表示符號位,所以被擠掉了,總之此時負數的範圍則是[-128, 0),byte型數組的範圍則是[-128, 127]。原因是由於-0和0表示的都是0為避免浪費,將-0表示為-128擴大了範圍。

  這一段我們通過位元組(Byte)這種表示電腦數據存儲的單位,延伸了Java中byte型數據類型的取值範圍,進而回顧了電腦中數值存儲的編碼方式,應該是能更好的理解位元組這個概念。下麵將介紹什麼又是字元。

字元(Char)

  字元表示文字和符號。人與人之間通過人類語言進行溝通,電腦通過二進位來進行溝通,當人-電腦-人,中間多了電腦的媒介過後,中間就需要電腦對我們人類的語言符號“編碼”進行傳輸,而電腦-人這個過程又稱之為“解碼”。這有點類似“加密”“解密”的過程。

  在電腦剛出現的時候只能傳輸英文字元,這裡的傳輸包括是顯示和存儲,前面提到要進行編碼存儲,既然要編碼就需要一張表來表示A是什麼,B是什麼,就好比摩斯密碼中的密碼本一樣。那時的“碼表”也就是編碼方式叫做ASCII。

  

  電腦繼續在發展,需要發展到其他國家和地區,此時就需要對漢字、日文、韓文等進行編碼,但原有的ASCII肯定不能滿足,它的設計是包括了英文和符號,此時就出現了ANSI編碼(也叫做ASCII擴展),這實際上是一種規範,一種本地化的規範編碼,例如在中文操作系統中ANSI代表的就是GB2312編碼(當然也有它的擴展叫做GBK編碼),在日文操作系統中ANSI代表的就是JIS等等。ANSI編碼採用2個位元組來表示一個字元(範圍在0x80-0xFF),兩個位元組也就是16個二進位位,理論上可以表示216個字元,當然這需要減去0x00-0x79這個範圍,這就能表示很多很多的字元了。GB2312編碼也就才表示了6000多個常用漢字。不過這種編碼方式還是帶來了新的問題,這隻是做了本地化,也就是說在GB2312的編碼環境下,無法對日文進行編碼。所以還需要做國際化。

  隨著電腦的繼續發展,國際化越來越重要這當然也就包括編碼方式的改變,為避免ANSI不相容的狀況,又制定了新的編碼規則——UNICODE。在Java中使用的就是UNICODE編碼,這符合Java跨平臺的特性,這也就解釋了Java中char字元的數據類型占用的是2個位元組,因為Java使用UNICODE編碼,而UNICODE是2個位元組表示1個字元。UNICODE解決了不同語言在不同平臺不相容的情況,但也有一個小小的弊端,也就是稍微比前面兩種要占空間,以UNICODE字元集在記憶體中存儲的字元串我們稱之為為“寬位元組字元串”,實際上之後對於字元編碼的工作就集中在瞭如何縮短位元組空間上。 這裡就著重介紹UNICODE編碼,UNICODE編碼之所以略占空間,是因為它使用2個位元組來表示1個字元。就算是英文也是使用2個位元組。而ACSII和ANSI則使用1個位元組表示英文。空間的占用就體現在了這個地方,如下圖所示。

  可以看出,這就白白地浪費掉了1個位元組的空間,在這裡實際上又可以繼續延伸出有關電腦基礎的知識,也就是在電腦中的數據在記憶體中的存儲方式是大端模式(Big-Endian,也稱高位元組在前),還是小端模式(Little-Endian,也稱低位元組在前)。所謂大端模式就是高位位元組在記憶體的低地址端,低位位元組在記憶體的高地址端。而小端模式則是高位位元組在記憶體的高地址端,低位位元組在記憶體的低地址端。上圖所示方式就是大端模式,可以看到低位位元組跑到了地址的左邊也就是高地址端。需要清楚的是Java中採用的是大端模式。

  繼續回到編碼上來,由於UNICODE給任意字元都是採用的2個位元組表示1個字元,會造成空間浪費,所以在UNICODE編碼基礎上,又出現了可變長編碼的UTF-8編碼,這種編碼方式會靈活地進行字元的空間分配,不同字元所占用的記憶體空間不相同,在保證相容性的同時,也保證了空間的最合理使用。

  這就是Java IO的基礎知識,為的是便於後面Java IO中有關位元組流和字元流的更好理解。

 

 

 

這是一個能給程式員加buff的公眾號 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 學習java之後,到企業的崗位 技術:java軟體開發工程師(中初級):技術一般; 高級工程師:技術高等; 技術架構師;技術頂級; 管理:項目經理;產品經理; 質詢:質詢顧問;銷售經理; 學會之後可以根據個人的愛好去從事相關的職位,但是不管是做哪一個都是需要技術的底子。希望能幫到你們。在這裡我也提醒 ...
  • 兩種用法介紹如下:1.range([start], stop[, step])返回等差數列。構建等差數列,起點是start,終點是stop,但不包含stop,公差是step。start和step是可選項,沒給出start時,從0開始;沒給出step時,預設公差為1。例如: 2.xrange([sta ...
  • 設計模式是對問題行之有效的解決方案,它其實是一種思想。 單例設計模式: 解決的問題:可以保證一個類在記憶體中只能有一個對象。(比如多個程式使用相同的配置信息對象時,就需要保證對象的唯一性) 如何保證唯一性:1、不允許其他程式用new創建類對象 2、在該類中創建一個本類實例 3、對外提供一個方法讓其他程 ...
  • ecto 簡介 ecto 相當於 elixir 的 ORM,但是得益於 elixir 語言,和傳統的 ORM 相比,更加簡潔和強大。 ecto 主要分為 4 部分: 1. Repo: 這是和真正資料庫交互的部分 2. Schema: 相當於是資料庫中表的定義,但不僅僅是定義 3. Changeset ...
  • 題目如下: 這題我剛開始被示例給迷惑了,是將key和value分開輸入的,類似於cin>>key>>value,這裡應該是要講每行字元串連接成一個新的字元串,然後遍歷整個字元串,遇到:表示key錄入完畢,遇到,和},要先判斷,的情況,確定,前面沒有},這是才表示value錄入完畢。再就是首碼的問題, ...
  • 1.請求異常處理 請求異常類型: 請求超時處理(timeout): 實現代碼: import requestsfrom requests import exceptions #引入exceptions A:請求超時 def timeout_request(): try: response = req ...
  • hasattr(x, y) getattr(x, y) setattr(x, y , v) delattr(x, y)四種反射方法,就是把字元串反射為記憶體地址。 ...
  • 搭建環境 1、win10_X64,其他Win版本也可以。 2、PyCharm版本:Professional-2016.2.3。 搭建準備 1、到PyCharm官網下載PyCharm安裝包。 2、選擇Windows系統的專業版下載。 安裝軟體 1、雙擊安裝包進行安裝。 2、自定義軟體安裝路徑(建議路徑 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...