Java IO(1)基礎知識——位元組與字元

来源:http://www.cnblogs.com/yulinfeng/archive/2017/11/25/7896470.html
-Advertisement-
Play Games

正所謂怕什麼來什麼,這是知名的“墨菲定律”。Java基礎涵蓋各個方面,敢說Java基礎扎實的人不是剛畢業的學生,就是工作N年的程式員。工作N年的程式員甚至也不敢人人都說Java基礎扎實,甚至精通,往往只是“無他唯熟爾”——熟手而已。 IO這塊我確實怕,它不難,只有兩個方面:輸入/輸出。但你說它用得多 ...


  正所謂怕什麼來什麼,這是知名的“墨菲定律”。Java基礎涵蓋各個方面,敢說Java基礎扎實的人不是剛畢業的學生,就是工作N年的程式員。工作N年的程式員甚至也不敢人人都說Java基礎扎實,甚至精通,往往只是“無他唯熟爾”——熟手而已。

  IO這塊我確實怕,它不難,只有兩個方面:輸入/輸出。但你說它用得多不多,我相信沒有你寫的併發多,併發往往是處處可見,寫著寫著就熟了,而IO卻往往只是某個模塊會涉及,所以也就並不是每個程式員在開發維護自己的模塊時都會用到有關IO的API,而碰到的時候常常陷入窘迫,不知道怎麼寫。

  我想研究IO這塊願意正是想鞏固自己的Java基礎,並希望能成為精通Java的那個人。 本文作為Java IO系列的開篇,首先要介紹幾個概念:位元組與字元。原因在於,Java IO的API分為位元組流和字元流,瞭解什麼是位元組和字元有助於我們後續IO的理解。

位元組(Byte)

  電腦中存儲數據的一個單位。比它小的是位(bit,也叫比特),這是在電腦中數據存儲的最小計量單位,1位存放的是二進位的數據0和1,如下所示。

  當然比位元組更大的是KB(千位元組),1KB = 1024B,再到後面就是MB(兆位元組),1MB = 1024KB,GB、TB……

  Java中有用於表示位元組的數據類型——byte,再次不妨回顧下有關在Java中有關byte的一些知識。

  前面提到1個位元組等於8個二進位位,那麼也就是說1個位元組能表示的最大數為[0, 255](閉區間),但是,在Java中byte類型是有符號型的,也就是說在它的最高位是符號位。也就是說除去最高位符號位,還剩下7個二進位位,那麼7個二進位所能表示的最大數為[0, 127],這是正數,加上最高位為1表示負數時,byte型數據類型所能表示的最大數為[-127, 0],也就是說byte型的數據範圍是[-127, 127],真的是這樣嗎?錯了。上面的分析是錯誤的。Java中byte型數據類型的取值範圍為[-128, 127]。

  錯誤的原因是沒有考慮到電腦中數值存儲的編碼問題。所以這又會繼續延伸到原碼、反碼、補碼的概念。

  • 原碼:最高位表示符號位,0表示正數,1表示負數,其餘位表示真實數值。前面的錯誤分析正是將電腦中數值存儲定義為了原碼,所以才會得到Java中byte型數據類型的取值範圍是[-127, 127]。
  • 反碼:同樣最高位表示符號位,正數的反碼與原碼相同,而負數的反碼除符號位外,其餘位取反。
  • 補碼:同樣最高位表示符號位,正數的反碼與原碼相同,而負數的補碼除符號位外,其餘位取反+1。電腦中數值的存儲正是補碼。

  可以通過程式來觀察體會,電腦中數值存儲是通過補碼來存儲的。

System.out.println("正數3的二進位原碼為:11,其補碼與原碼相同為:" + Integer.toBinaryString(3));
System.out.println("負數-3的二進位原碼為:111,其補碼與為(int型占4bytes=32bits,只看最後的3位):" + Integer.toBinaryString(-3) + "(不信將最後三位補碼-1取反得到原碼)");

   通過運算結果可以看到,電腦中的數值確實是以補碼方式存儲的。

  在瞭解了原碼、反碼、補碼,以及知道電腦中數值是以補碼方式存儲過後,現在回到Java中byte型數據類型的範圍上來。就算是以補碼方式的存儲,可以確定的是在byte型數組中正數(最高位為0)的範圍是[0, 127]一共128個數,那麼負數(最高位為1)的原碼範圍則是[-127, -0],二進位也就是[11111111, 10000000],註意這是原碼,並且這個地方有點衝突,也就是出現了-0這種表示,這顯然是不合理的或者說0已經在正數中已經包括了,在這裡實際上byte型數組做了一定的處理,也就是把把-0的補碼當做了-128,-0的原碼是10000000,它的反碼則是11111111,它的補碼則還是10000000,反碼+1過後需要進位,但是最高位表示符號位,所以被擠掉了,總之此時負數的範圍則是[-128, 0),byte型數組的範圍則是[-128, 127]。原因是由於-0和0表示的都是0為避免浪費,將-0表示為-128擴大了範圍。

  這一段我們通過位元組(Byte)這種表示電腦數據存儲的單位,延伸了Java中byte型數據類型的取值範圍,進而回顧了電腦中數值存儲的編碼方式,應該是能更好的理解位元組這個概念。下麵將介紹什麼又是字元。

字元(Char)

  字元表示文字和符號。人與人之間通過人類語言進行溝通,電腦通過二進位來進行溝通,當人-電腦-人,中間多了電腦的媒介過後,中間就需要電腦對我們人類的語言符號“編碼”進行傳輸,而電腦-人這個過程又稱之為“解碼”。這有點類似“加密”“解密”的過程。

  在電腦剛出現的時候只能傳輸英文字元,這裡的傳輸包括是顯示和存儲,前面提到要進行編碼存儲,既然要編碼就需要一張表來表示A是什麼,B是什麼,就好比摩斯密碼中的密碼本一樣。那時的“碼表”也就是編碼方式叫做ASCII。

  

  電腦繼續在發展,需要發展到其他國家和地區,此時就需要對漢字、日文、韓文等進行編碼,但原有的ASCII肯定不能滿足,它的設計是包括了英文和符號,此時就出現了ANSI編碼(也叫做ASCII擴展),這實際上是一種規範,一種本地化的規範編碼,例如在中文操作系統中ANSI代表的就是GB2312編碼(當然也有它的擴展叫做GBK編碼),在日文操作系統中ANSI代表的就是JIS等等。ANSI編碼採用2個位元組來表示一個字元(範圍在0x80-0xFF),兩個位元組也就是16個二進位位,理論上可以表示216個字元,當然這需要減去0x00-0x79這個範圍,這就能表示很多很多的字元了。GB2312編碼也就才表示了6000多個常用漢字。不過這種編碼方式還是帶來了新的問題,這隻是做了本地化,也就是說在GB2312的編碼環境下,無法對日文進行編碼。所以還需要做國際化。

  隨著電腦的繼續發展,國際化越來越重要這當然也就包括編碼方式的改變,為避免ANSI不相容的狀況,又制定了新的編碼規則——UNICODE。在Java中使用的就是UNICODE編碼,這符合Java跨平臺的特性,這也就解釋了Java中char字元的數據類型占用的是2個位元組,因為Java使用UNICODE編碼,而UNICODE是2個位元組表示1個字元。UNICODE解決了不同語言在不同平臺不相容的情況,但也有一個小小的弊端,也就是稍微比前面兩種要占空間,以UNICODE字元集在記憶體中存儲的字元串我們稱之為為“寬位元組字元串”,實際上之後對於字元編碼的工作就集中在瞭如何縮短位元組空間上。 這裡就著重介紹UNICODE編碼,UNICODE編碼之所以略占空間,是因為它使用2個位元組來表示1個字元。就算是英文也是使用2個位元組。而ACSII和ANSI則使用1個位元組表示英文。空間的占用就體現在了這個地方,如下圖所示。

  可以看出,這就白白地浪費掉了1個位元組的空間,在這裡實際上又可以繼續延伸出有關電腦基礎的知識,也就是在電腦中的數據在記憶體中的存儲方式是大端模式(Big-Endian,也稱高位元組在前),還是小端模式(Little-Endian,也稱低位元組在前)。所謂大端模式就是高位位元組在記憶體的低地址端,低位位元組在記憶體的高地址端。而小端模式則是高位位元組在記憶體的高地址端,低位位元組在記憶體的低地址端。上圖所示方式就是大端模式,可以看到低位位元組跑到了地址的左邊也就是高地址端。需要清楚的是Java中採用的是大端模式。

  繼續回到編碼上來,由於UNICODE給任意字元都是採用的2個位元組表示1個字元,會造成空間浪費,所以在UNICODE編碼基礎上,又出現了可變長編碼的UTF-8編碼,這種編碼方式會靈活地進行字元的空間分配,不同字元所占用的記憶體空間不相同,在保證相容性的同時,也保證了空間的最合理使用。

  這就是Java IO的基礎知識,為的是便於後面Java IO中有關位元組流和字元流的更好理解。

 

 

 

這是一個能給程式員加buff的公眾號 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 學習java之後,到企業的崗位 技術:java軟體開發工程師(中初級):技術一般; 高級工程師:技術高等; 技術架構師;技術頂級; 管理:項目經理;產品經理; 質詢:質詢顧問;銷售經理; 學會之後可以根據個人的愛好去從事相關的職位,但是不管是做哪一個都是需要技術的底子。希望能幫到你們。在這裡我也提醒 ...
  • 兩種用法介紹如下:1.range([start], stop[, step])返回等差數列。構建等差數列,起點是start,終點是stop,但不包含stop,公差是step。start和step是可選項,沒給出start時,從0開始;沒給出step時,預設公差為1。例如: 2.xrange([sta ...
  • 設計模式是對問題行之有效的解決方案,它其實是一種思想。 單例設計模式: 解決的問題:可以保證一個類在記憶體中只能有一個對象。(比如多個程式使用相同的配置信息對象時,就需要保證對象的唯一性) 如何保證唯一性:1、不允許其他程式用new創建類對象 2、在該類中創建一個本類實例 3、對外提供一個方法讓其他程 ...
  • ecto 簡介 ecto 相當於 elixir 的 ORM,但是得益於 elixir 語言,和傳統的 ORM 相比,更加簡潔和強大。 ecto 主要分為 4 部分: 1. Repo: 這是和真正資料庫交互的部分 2. Schema: 相當於是資料庫中表的定義,但不僅僅是定義 3. Changeset ...
  • 題目如下: 這題我剛開始被示例給迷惑了,是將key和value分開輸入的,類似於cin>>key>>value,這裡應該是要講每行字元串連接成一個新的字元串,然後遍歷整個字元串,遇到:表示key錄入完畢,遇到,和},要先判斷,的情況,確定,前面沒有},這是才表示value錄入完畢。再就是首碼的問題, ...
  • 1.請求異常處理 請求異常類型: 請求超時處理(timeout): 實現代碼: import requestsfrom requests import exceptions #引入exceptions A:請求超時 def timeout_request(): try: response = req ...
  • hasattr(x, y) getattr(x, y) setattr(x, y , v) delattr(x, y)四種反射方法,就是把字元串反射為記憶體地址。 ...
  • 搭建環境 1、win10_X64,其他Win版本也可以。 2、PyCharm版本:Professional-2016.2.3。 搭建準備 1、到PyCharm官網下載PyCharm安裝包。 2、選擇Windows系統的專業版下載。 安裝軟體 1、雙擊安裝包進行安裝。 2、自定義軟體安裝路徑(建議路徑 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...