選擇哪種分配方式由Java堆是否規整決定,而Java堆是否規整又由所採用的垃圾收集器是否帶有壓縮整理功能決定。因此,在使用Serial、ParNew等帶Compact過程的收集器時,系統採用的分配演算法是指針碰撞,而使用CMS這種基於Mark-Sweep演算法的收集器時,通常採用空閑列表。這兩種對象訪問... ...
基於實用優先的原則,以常用的虛擬機HotSpot和常用的記憶體區域Java堆為例,深入探討HotSpot虛擬機在Java堆中對象分配、佈局和訪問的全過程。以下是本節內容的腦圖。

HotSpot虛擬機對象探秘腦圖
一、 對象的創建
創建對象大致分為5步:1.檢查類是否載入,沒有載入先載入類 2.分配記憶體 3.初始化 4.設置對象頭 5.執行初始化方法 例如構造方法等。

1、類載入檢查
虛擬機遇到一條new指令時,首先將去檢查這個指令的參數是否能在常量池中定位到一個類的符號引用,並且檢查這個符號引用代表的類是否已被載入、解析和初始化過。如果沒有,那必須先執行相應的類載入過程,本書第7章將探討這部分內容的細節。
2、分配記憶體
在類載入檢查通過後,接下來虛擬機將為新生對象分配記憶體。對象所需記憶體的大小在類載入完成後便可完全確定
2.1 分配記憶體方式
2.1.1 指針碰撞
假設Java堆中記憶體是絕對規整的,所有用過的記憶體都放在一邊,空閑的記憶體放在另一邊,中間放著一個指針作為分界點的指示器,那所分配記憶體就僅僅是把那個指針向空閑空間那邊挪動一段與對象大小相等的距離,這種分配方式稱為“指針碰撞”(Bump the Pointer)。

指針碰撞
2.1.2 空閑列表
如果Java堆中的記憶體並不是規整的,已使用的記憶體和空閑的記憶體相互交錯,那就沒有辦法簡單地進行指針碰撞了,虛擬機就必須維護一個列表,記錄上哪些記憶體塊是可用的,在分配的時候從列表中找到一塊足夠大的空間劃分給對象實例,並更新列表上的記錄,這種分配方式稱為“空閑列表”(Free List)。

空閑列表
2.1.3 分配記憶體方式總結
選擇哪種分配方式由Java堆是否規整決定,而Java堆是否規整又由所採用的垃圾收集器是否帶有壓縮整理功能決定。因此,在使用Serial、ParNew等帶Compact過程的收集器時,系統採用的分配演算法是指針碰撞,而使用CMS這種基於Mark-Sweep演算法的收集器時,通常採用空閑列表。
2.2 解決分配記憶體時線程安全問題
對象創建在虛擬機中是非常頻繁的行為,即使是僅僅修改一個指針所指向的位置,在併發情況下也並不是線程安全的,可能出現正在給對象A分配記憶體,指針還沒來得及修改,對象B又同時使用了原來的指針來分配記憶體的情況。解決這個問題有兩種方案:
2.2.1 同步處理
一種是對分配記憶體空間的動作進行同步處理,實際上虛擬機採用CAS配上失敗重試的方式保證更新操作的原子性;
2.2.2 本地線程分配緩衝(TLAB)
另一種是把記憶體分配的動作按照線程劃分在不同的空間之中進行,即每個線程在Java堆中預先分配一小塊記憶體,稱為本地線程分配緩衝(Thread Local Allocation Buffer,TLAB)。哪個線程要分配記憶體,就在哪個線程的TLAB上分配,只有TLAB用完並分配新的TLAB時,才需要同步鎖定。虛擬機是否使用TLAB,可以通過-XX:+/-UseTLAB參數來設定。
3、初始化
記憶體分配完成後,虛擬機需要將分配到的記憶體空間都初始化為零值(不包括對象頭),如果使用TLAB,這一工作過程也可以提前至TLAB分配時進行。這一步操作保證了對象的實例欄位在Java代碼中可以不賦初始值就直接使用,程式能訪問到這些欄位的數據類型所對應的零值。
4、設置對象頭
接下來,虛擬機要對對象進行必要的設置,例如這個對象是哪個類的實例、如何才能找到類的元數據信息、對象的哈希碼、對象的GC分代年齡等信息。這些信息存放在對象的對象頭(Object Header)之中。根據虛擬機當前的運行狀態的不同,如是否啟用偏向鎖等,對象頭會有不同的設置方式
5、執行初始化方法
在上面工作都完成之後,從虛擬機的視角來看,一個新的對象已經產生了,但從Java程式的視角來看,對象創建才剛剛開始——<init>方法還沒有執行,所有的欄位都還為零。所以,一般來說(由位元組碼中是否跟隨invokespecial指令所決定),執行new指令之後會接著執行<init>方法,把對象按照程式員的意願進行初始化,這樣一個真正可用的對象才算完全產生出來。
二、對象的記憶體佈局
在HotSpot虛擬機中,對象在記憶體中存儲的佈局可以分為3塊區域:對象頭(Header)、實例數據(Instance Data)和對齊填充(Padding)。

Java對象的記憶體佈局
數組對象與普通對象的記憶體結構區別在於數組的對象頭裡面多了一個數組的長度。

數組對象與普通對象的記憶體結構區別
1、對象頭
HotSpot虛擬機的對象頭包括兩部分信息,第一部分用於存儲對象自身的運行時數據,如哈希碼(HashCode)、GC分代年齡、鎖狀態標誌、線程持有的鎖、偏向線程ID、偏向時間戳等,這部分數據的長度在32位和64位的虛擬機(未開啟壓縮指針)中分別為32bit和64bit,官方稱它為“Mark Word”。

對象頭
對象需要存儲的運行時數據很多,其實已經超出了32位、64位Bitmap結構所能記錄的限度,所以它會根據對象的狀態復用自己的存儲空間。例如,在32位的HotSpot虛擬機中,如果對象處於未被鎖定的狀態下,那麼Mark Word的32bit空間中的25bit用於存儲對象哈希碼,4bit用於存儲對象分代年齡,2bit用於存儲鎖標誌位,1bit固定為0,而在其他狀態(輕量級鎖定、重量級鎖定、GC標記、可偏向)下對象的存儲內容如下圖。

表2-1 HotSpot虛擬機對象頭Mark Word

64位虛擬機對象頭
2、實例數據
實例數據部分是對象真正存儲的有效信息,也是在程式代碼中所定義的各種類型的欄位內容。無論是從父類繼承下來的,還是在子類中定義的,都需要記錄起來。
3、對齊填充
對齊填充並不是必然存在的,也沒有特別的含義,它僅僅起著占位符的作用。由於HotSpot VM的自動記憶體管理系統要求對象起始地址必須是8位元組的整數倍,換句話說,就是對象的大小必須是8位元組的整數倍。而對象頭部分正好是8位元組的倍數(1倍或者2倍),因此,當對象實例數據部分沒有對齊時,就需要通過對齊填充來補全。
三、對象的訪問定位
對象訪問方式也是取決於虛擬機實現而定的。目前主流的訪問方式有使用句柄和直接指針兩種。
1、句柄
如果使用句柄訪問的話,那麼Java堆中將會劃分出一塊記憶體來作為句柄池,reference中存儲的就是對象的句柄地址,而句柄中包含了對象實例數據與類型數據各自的具體地址信息,如圖2-2所示。

圖2-2 通過句柄訪問對象
2、直接指針
如果使用直接指針訪問,那麼Java堆對象的佈局中就必須考慮如何放置訪問類型數據的相關信息,而reference中存儲的直接就是對象地址,如圖2-3所示。

圖2-3 通過直接指針訪問對象
對象的訪問定位總結
這兩種對象訪問方式各有優勢:
使用句柄來訪問的最大好處就是reference中存儲的是穩定的句柄地址,在對象被移動(垃圾收集時移動對象是非常普遍的行為)時只會改變句柄中的實例數據指針,而reference本身不需要修改。
使用直接指針訪問方式的最大好處就是速度更快,它節省了一次指針定位的時間開銷,由於對象的訪問在Java中非常頻繁,因此這類開銷積少成多後也是一項非常可觀的執行成本。
就本書討論的主要虛擬機Sun HotSpot而言,它是使用第二種方式進行對象訪問的,但從整個軟體開發的範圍來看,各種語言和框架使用句柄來訪問的情況也十分常見。