今天這Class文件看的我一臉懵圈。有種當初學PE時候的感覺了。 類文件結構 如果電腦的CPU指令集只有X86一種,操作系統也只有windows,那也許Java語言就不會出現。Java在誕生之初就提出一個非常著名的口號:一次編寫到處運行。 class文件的結構 Class文件是一組以8位位元組為基礎 ...
今天這Class文件看的我一臉懵圈。有種當初學PE時候的感覺了。
類文件結構
如果電腦的CPU指令集只有X86一種,操作系統也只有windows,那也許Java語言就不會出現。Java在誕生之初就提出一個非常著名的口號:一次編寫到處運行。
class文件的結構
Class文件是一組以8位位元組為基礎的二進位流,各個數據項目嚴格按照順序緊湊地排列到Class文件中,中間沒有添加任何分隔符,這使得整個Class文件種存儲的內容幾乎全部是程式與小的必要數據,沒有空隙存在。當遇到需要占用8位位元組以上的數據項時,則會按照高位在前低位在後的方式分割成若幹個8位位元組。
如果有做過逆向工程的朋友可能會知道,windows是小端存儲,也就是高位在後,低位在前。
根據Java虛擬機規範的規定,Class文件格式採用一種類似於C語言結構體的偽結構來存儲數據,這種偽結構中只有倆種數據類型:無符號數和表,後面的解析都要以這倆種類型為基礎,所以這裡要先介紹這倆個概念。
無符號數屬於基本的數據類型,以u1,u2,u4,u8來分別表示1個位元組,2個位元組,4個位元組和8個位元組的無符號數,無符號數可以用來描述數字、索引引用、數量值或者按照UTF-8編碼構成字元串值。
表是有多個無符號數或者其他表作為數據項構成的複合數據類型,所有表都習慣性的以“_info”結尾。表用於描述有層次關係的複合結構的數據,整個Class文件在本質上就是一張表,它由表6-1所示的數據項組成。
類型 | 名稱 | 數量 |
---|---|---|
u4 | magic | 1 |
u2 | minor_version | 1 |
u2 | major_version | 1 |
u2 | constant_pool_count | 1 |
cp_info | constant_pool | constant_pool_count-1 |
u2 | access_flags | 1 |
u2 | this_class | 1 |
u2 | super_class | 1 |
u2 | interfaces_count | 1 |
u2 | interfaces | interfaces_count |
u2 | fields_count | 1 |
field_info | fields | fields_count |
u2 | methods | methods_count |
method_info | methods | methods_count |
u2 | attributes_count | 1 |
attribute_info | attributes | attributes_count |
無論是無符號數還是表,當需要描述同一類型但數量不定的多個數據時,經常會使用一個前置的容量計數器加若幹個連續的數據項的格式,這時稱這一些列連續的某一類型的數據為某一類型的集合。
魔術與class文件的版本
每個class文件的頭4個位元組都叫魔數
如下所示
它的唯一作用是確定這個文件是否為一個能被虛擬機接受的class文件。很多文件存儲標準中都使用魔數來進行身份識別。
緊跟著4個位元組存儲的是Class文件的版本號:第5和第6位元組是次版本號,第7第8個位元組是是主版本號。
Java版本號是從4,5開始的,JDK1.1以後的每個JDK大致版本都+1.高版本的JDK能向下相容以前的Class文件,但不能運行以後版本的Class文件。
常量池
緊接著主版本號之後的是常量池入口,常量池可以理解為Class文件中的資源倉庫,它是Class文件結構中與其他項目關聯最多的數據類型,也是占用Class文件空間最大的數據項目之一。同時也是在Class文件中第一個出現的表類型數據項目。
由於常量池中常量的數量是不固定的,所以在常量池入口需要放置一項u2類型的數據,代表常量池容量計數器。與Java中語言習慣不一樣的是,這個容量是從1開始的。
常量池中主要存放倆大類常量:字面量和符號引用,字面量比較接近於Java語言層面的常量概念,如文本字元串,聲明為final的常量值等。而符號引用則屬於編譯原理方面的概念,包含了下麵三類常量:
- 類和介面的全限定名。
- 欄位的名稱和描述符
- 方法的名稱和描述符
Java代碼在進行Javac編譯的時候,並不像C和C++那樣有“連接”這一步驟,而是在虛擬機載入Class文件的時候進行動態鏈接。也就是說,在Class文件中不會保存各個方法、欄位的最終佈局信息,因此這些欄位、方法的符號引用不經過運行期轉化的話無法得到真正的記憶體入口地址,也就無法直接被虛擬機使用。當虛擬機運行時,需要從常量池獲得對應的符號引用,再在類創建的時候或運行時解析、翻譯到具體的記憶體之中。
常量池中每一項常量都是一個表,
Javap
Oracle公司已經為我們準備好一個專門用於分析class文件位元組碼的工具:javap,