HashMap源碼深度剖析 * HashMap底層數據結構(為什麼引入紅黑樹、存儲數據的過程、哈希碰撞相關問題) * HashMap成員變數(初始化容量是多少、負載因數、數組長度為什麼是2的n次冪) * HashMap擴容機制(什麼時候需要擴容? 怎麼進行擴容?) * JDK7 與 Jdk8比較,J ...
HashMap源碼深度剖析
* HashMap底層數據結構(為什麼引入紅黑樹、存儲數據的過程、哈希碰撞相關問題)
* HashMap成員變數(初始化容量是多少、負載因數、數組長度為什麼是2的n次冪)
* HashMap擴容機制(什麼時候需要擴容? 怎麼進行擴容?)
* JDK7 與 Jdk8比較,JDK8進行了什麼優化?
1 定義
HashMap基於哈希表的Map介面實現,是以key-value存儲形式存在,即主要用來存放鍵值對。HashMap的實現不是同步的,這意味著它不是線程安全的。它的key、value都可以為null。此外,HashMap中的映射不是有序的。
- JDK1.7 HashMap數據結構:數組 + 鏈表
- JDK1.8 HashMap數據結構:數組 + 鏈表 / 紅黑樹
思考:為什麼1.8之後,HashMap的數據結構要增加紅黑樹?
2 哈希表
Hash表也稱為散列表,也有直接譯作哈希表,Hash表是一種根據關鍵字值(key - value)而直接進行訪問的數據結構。也就是說它通過把關鍵碼值映射到表中的一個位置來訪問記錄,以此來加快查找的速度。在鏈表、數組等數據結構中,查找某個關鍵字,通常要遍歷整個數據結構,也就是O(N)的時間級,但是對於哈希表來說,只是O(1)的時間級
哈希表,它是通過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數叫做散列函數,存放記錄的數組叫做散列表,只需要O(1)的時間級
思考:多個 key 通過散列函數會得到相同的值,這時候怎麼辦?
解決:
(1)開放地址法
(2)鏈地址法
對於開放地址法,可能會遇到二次衝突,三次衝突,所以需要良好的散列函數,分佈的越均勻越好。對於鏈地址法,雖然不會造成二次衝突,但是如果一次衝突很多,那麼會造成子數組或者子鏈表很長,那麼我們查找所需遍歷的時間也會很長。
3 JDK1.8前HashMap的數據結構
- JDK 8 以前 HashMap 的實現是 數組+鏈表,即使哈希函數取得再好,也很難達到元素百分百均勻分佈。
- 當 HashMap 中有大量的元素都存放到同一個桶中時,這個桶下有一條長長的鏈表,極端情況HashMap 就相當於一個單鏈表,假如單鏈表有 n 個元素,遍歷的時間複雜度就是 O(n),完全失去了它的優勢。
4 JDK1.8後HashMap的數據結構
- JDK 8 後 HashMap 的實現是 數組+鏈表+紅黑樹
- 桶中的結構可能是鏈表,也可能是紅黑樹,當鏈表長度大於閾值(或者紅黑樹的邊界值,預設為8)並且當前數組的長度大於64時,此時此索引位置上的所有數據改為使用紅黑樹存儲。
5. 類構造器
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
JDK 為我們提供了一個抽象類 AbstractMap ,該抽象類繼承 Map 介面,所以如果我們不想實現所有的 Map 介面方法,就可以選擇繼承抽象類 AbstractMap 。
HashMap 集合實現了 Cloneable 介面以及 Serializable 介面,分別用來進行對象克隆以及將對象進行序列化。
註意:HashMap 類即繼承了 AbstractMap 介面,也實現了 Map 介面,這樣做難道不是多此一舉?
據 java 集合框架的創始人Josh Bloch描述,這樣的寫法是一個失誤。在java集合框架中,類似這樣的寫法很多,最開始寫java集合框架的時候,他認為這樣寫,在某些地方可能是有價值的,直到他意識到錯了。顯然的,JDK的維護者,後來不認為這個小小的失誤值得去修改,所以就這樣存在下來了。
6 欄位屬性
//序列化和反序列化時,通過該欄位進行版本一致性驗證
private static final long serialVersionUID = 362498820763181265L;
//預設 HashMap 集合初始容量為16(必須是 2 的倍數)
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
//集合的最大容量,如果通過帶參構造指定的最大容量超過此數,預設還是使用此數
static final int MAXIMUM_CAPACITY = 1 << 30;
//預設的填充因數
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//當桶(bucket)上的結點數大於這個值時會轉成紅黑樹(JDK1.8新增)
static final int TREEIFY_THRESHOLD = 8;
//當桶(bucket)上的節點數小於這個值時會轉成鏈表(JDK1.8新增)
static final int UNTREEIFY_THRESHOLD = 6;
/**(JDK1.8新增)
* 當集合中的容量大於這個值時,表中的桶才能進行樹形化 ,否則桶內元素太多時會擴容,
* 而不是樹形化 為了避免進行擴容、樹形化選擇的衝突,這個值不能小於 4 * TREEIFY_THRESHOLD
*/
static final int MIN_TREEIFY_CAPACITY = 64;
/**
* 初始化使用,長度總是 2的冪
*/
transient Node<K,V>[] table;
/**
* 保存緩存的entrySet()
*/
transient Set<Map.Entry<K,V>> entrySet;
/**
* 此映射中包含的鍵值映射的數量。(集合存儲鍵值對的數量)
*/
transient int size;
/**
* 跟前面ArrayList和LinkedList集合中的欄位modCount一樣,記錄集合被修改的次數
* 主要用於迭代器中的快速失敗
*/
transient int modCount;
/**
* 調整大小的下一個大小值(容量*載入因數)。capacity * load factor
*/
int threshold;
/**
* 散列表的載入因數。
*/
final float loadFactor;
下麵我們重點介紹上面幾個欄位:
①、Node<K,V>[] table
我們說 HashMap 是由數組+鏈表+紅黑樹組成,這裡的數組就是 table 欄位。後面對其進行初始化長度預設是 DEFAULT_INITIAL_CAPACITY= 16。而且 JDK 聲明數組的長度總是 2的n次方(一定是合數),為什麼這裡要求是合數,一般我們知道哈希演算法為了避免衝突都要求長度是質數,這裡要求是合數,下麵在介紹 HashMap 的hashCode() 方法(散列函數),我們再進行講解。
②、size
集合中存放key-value 的實時對數。
③、loadFactor
裝載因數,是用來衡量 HashMap 滿的程度,計算HashMap的實時裝載因數的方法為:size/capacity,而不是占用桶的數量去除以capacity。capacity 是桶的數量,也就是 table 的長度length。
預設的負載因數0.75 是對空間和時間效率的一個平衡選擇,建議大家不要修改,除非在時間和空間比較特殊的情況下,如果記憶體空間很多而又對時間效率要求很高,可以降低負載因數loadFactor 的值;相反,如果記憶體空間緊張而對時間效率要求不高,可以增加負載因數 loadFactor 的值,這個值可以大於1。
④、threshold
計算公式:capacity * loadFactor。這個值是當前已占用數組長度的最大值。過這個數目就重新resize(擴容),擴容後的 HashMap 容量是之前容量的兩倍
7 構造函數
①、預設無參構造函數
/**
* 預設構造函數,初始化載入因數loadFactor = 0.75
*/
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR;
}
②、指定初始容量的構造函數
/**
*
* @param initialCapacity 指定初始化容量
* @param loadFactor 載入因數 0.75
*/
public HashMap(int initialCapacity, float loadFactor) {
//初始化容量不能小於 0 ,否則拋出異常
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
//如果初始化容量大於2的30次方,則初始化容量都為2的30次方
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
//如果載入因數小於0,或者載入因數是一個非數值,拋出異常
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
// 返回大於等於initialCapacity的最小的二次冪數值。
// >>> 操作符表示無符號右移,高位取0。
// | 按位或運算
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
8 確定哈希桶數組索引位置
前面我們講解哈希表的時候,我們知道是用散列函數來確定索引的位置。散列函數設計的越好,使得元素分佈的越均勻。HashMap 是數組+鏈表+紅黑樹的組合,我們希望在有限個數組位置時,儘量每個位置的元素只有一個,那麼當我們用散列函數求得索引位置的時候,我們能馬上知道對應位置的元素是不是我們想要的,而不是要進行鏈表的遍歷或者紅黑樹的遍歷,這會大大優化我們的查詢效率。我們看 HashMap 中的哈希演算法:
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
i = (table.length - 1) & hash;//這一步是在後面添加元素putVal()方法中進行位置的確定
主要分為三步:
①、取 hashCode 值: key.hashCode()
②、高位參與運算:h>>>16
③、取模運算:(n-1) & hash
這裡獲取 hashCode() 方法的值是變數,但是我們知道,對於任意給定的對象,只要它的 hashCode() 返回值相同,那麼程式調用 hash(Object key) 所計算得到的 hash碼 值總是相同的。
為了讓數組元素分佈均勻,我們首先想到的是把獲得的 hash碼對數組長度取模運算( hash%length),但是電腦都是二進位進行操作,取模運算相對開銷還是很大的,那該如何優化呢?
HashMap 使用的方法很巧妙,它通過 hash & (table.length -1)來得到該對象的保存位,前面說過 HashMap 底層數組的長度總是2的n次方,這是HashMap在速度上的優化。當 length 總是2的n次方時,hash & (length-1)運算等價於對 length 取模,也就是 hash%length,但是&比%具有更高的效率。比如 n % 32 = n & (32 -1)
這也解釋了為什麼要保證數組的長度總是2的n次方。
再就是在 JDK1.8 中還有個高位參與運算,hashCode() 得到的是一個32位 int 類型的值,通過hashCode()的高16位 異或 低16位實現的:(h = k.hashCode()) ^ (h >>> 16),主要是從速度、功效、質量來考慮的,這麼做可以在數組table的length比較小的時候,也能保證考慮到高低Bit都參與到Hash的計算中,同時不會有太大的開銷。
下麵舉例說明下,n為table的長度:
9 添加元素
//hash(key)就是上面講的hash方法,對其進行了第一步和第二步處理
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
/**
*
* @param hash 索引的位置
* @param key 鍵
* @param value 值
* @param onlyIfAbsent true 表示不要更改現有值
* @param evict false表示table處於創建模式
* @return
*/
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
//如果table為null或者長度為0,則進行初始化
//resize()方法本來是用於擴容,由於初始化沒有實際分配空間,這裡用該方法進行空間分配,後面會詳細講解該方法
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//註意:這裡用到了前面講解獲得key的hash碼的第三步,取模運算,下麵的if-else分別是 tab[i] 為null和不為null
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);//tab[i] 為null,直接將新的key-value插入到計算的索引i位置
else {//tab[i] 不為null,表示該位置已經有值了
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;//節點key已經有值了,直接用新值覆蓋
//該鏈是紅黑樹
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
//該鏈是鏈表
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//鏈表長度大於8,轉換成紅黑樹
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
//key已經存在直接覆蓋value
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;//用作修改和新增快速失敗
if (++size > threshold)//超過最大容量,進行擴容
resize();
afterNodeInsertion(evict);
return null;
}
①、判斷鍵值對數組 table 是否為空或為null,否則執行resize()進行擴容;
②、根據鍵值key計算hash值得到插入的數組索引i,如果table[i]==null,直接新建節點添加,轉向⑥,如果table[i]不為空,轉向③;
③、判斷table[i]的首個元素是否和key一樣,如果相同直接覆蓋value,否則轉向④,這裡的相同指的是hashCode以及equals;
④、判斷table[i] 是否為treeNode,即table[i] 是否是紅黑樹,如果是紅黑樹,則直接在樹中插入鍵值對,否則轉向⑤;
⑤、遍歷table[i],判斷鏈表長度是否大於8,大於8的話把鏈表轉換為紅黑樹,在紅黑樹中執行插入操作,否則進行鏈表的插入操作;遍歷過程中若發現key已經存在直接覆蓋value即可;
⑥、插入成功後,判斷實際存在的鍵值對數量size是否超過了最大容量threshold,如果超過,進行擴容。
⑦、如果新插入的key不存在,則返回null,如果新插入的key存在,則返回原key對應的value值(註意新插入的value會覆蓋原value值)
註意1:其中代碼:
if (++size > threshold)//超過最大容量,進行擴容
resize();
這裡有個考點,我們知道 HashMap 是由數組+鏈表+紅黑樹(JDK1.8)組成,如果在添加元素時,發生衝突,會將衝突的數放在鏈表上,當鏈表長度超過8時,會自動轉換成紅黑樹。
那麼有如下問題:數組上有5個元素,而某個鏈表上有3個元素,問此HashMap的 size 是多大?
我們分析代碼,很容易知道,只要是調用put() 方法添加元素,那麼就會調用 ++size(這裡有個例外是插入重覆key的鍵值對,不會調用,但是重覆key元素不會影響size),所以,上面的答案是 7。
10 擴容機制
擴容(resize),我們知道集合是由數組+鏈表+紅黑樹構成,向 HashMap 中插入元素時,如果HashMap 集合的元素已經大於了最大承載容量threshold(capacity * loadFactor),這裡的threshold不是數組的最大長度。那麼必須擴大數組的長度,Java中數組是無法自動擴容的,我們採用的方法是用一個更大的數組代替這個小的數組,就好比以前是用小桶裝水,現在小桶裝不下了,我們使用一個更大的桶。
JDK1.8融入了紅黑樹的機制,比較複雜,這裡我們先介紹 JDK1.7的擴容源碼,便於理解,然後在介紹JDK1.8的源碼。
//參數 newCapacity 為新數組的大小
void resize(int newCapacity) {
Entry[] oldTable = table;//引用擴容前的 Entry 數組
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {//擴容前的數組大小如果已經達到最大(2^30)了
threshold = Integer.MAX_VALUE;///修改閾值為int的最大值(2^31-1),這樣以後就不會擴容了
return;
}
Entry[] newTable = new Entry[newCapacity];//初始化一個新的Entry數組
transfer(newTable, initHashSeedAsNeeded(newCapacity));//將數組元素轉移到新數組裡面
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);//修改閾值
}
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {//遍曆數組
while(null != e) {
Entry<K,V> next = e.next;
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
int i = indexFor(e.hash, newCapacity);//重新計算每個元素在數組中的索引位置
e.next = newTable[i];//標記下一個元素,添加是鏈表頭添加
newTable[i] = e;//將元素放在鏈上
e = next;//訪問下一個 Entry 鏈上的元素
}
}
}
通過方法我們可以看到,JDK1.7中首先是創建一個新的大容量數組,然後依次重新計算原集合所有元素的索引,然後重新賦值。如果數組某個位置發生了hash衝突,使用的是單鏈表的頭插入方法,同一位置的新元素總是放在鏈表的頭部,這樣與原集合鏈表對比,擴容之後的可能就是倒序的鏈表了。
下麵我們在看看JDK1.8的。
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;//原數組如果為null,則長度賦值0
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {//如果原數組長度大於0
if (oldCap >= MAXIMUM_CAPACITY) {//數組大小如果已經大於等於最大值(2^30)
threshold = Integer.MAX_VALUE;//修改閾值為int的最大值(2^31-1),這樣以後就不會擴容了
return oldTab;
}
//原數組長度大於等於初始化長度16,並且原數組長度擴大1倍也小於2^30次方
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // 閥值擴大1倍
}
else if (oldThr > 0) //舊閥值大於0,則將新容量直接等於就閥值
newCap = oldThr;
else {//閥值等於0,oldCap也等於0(集合未進行初始化)
newCap = DEFAULT_INITIAL_CAPACITY;//數組長度初始化為16
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);//閥值等於16*0.75=12
}
//計算新的閥值上限
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
//把每個bucket都移動到新的buckets中
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;//元數據j位置置為null,便於垃圾回收
if (e.next == null)//數組沒有下一個引用(不是鏈表)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)//紅黑樹
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//原索引
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
//原索引+oldCap
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//原索引放到bucket里
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//原索引+oldCap放到bucket里
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
該方法分為兩部分,首先是計算新桶數組的容量 newCap 和新閾值 newThr,然後將原集合的元素重新映射到新集合中。
相比於JDK1.7,1.8使用的是2次冪的擴展(指長度擴為原來2倍),所以,元素的位置要麼是在原位置,要麼是在原位置再移動2次冪的位置。我們在擴充HashMap的時候,不需要像JDK1.7的實現那樣重新計算hash,只需要看看原來的hash值新增的那個bit是1還是0就好了,是0的話索引沒變,是1的話索引變成“原索引+oldCap”。
11 刪除元素
HashMap 刪除元素首先是要找到 桶的位置,然後如果是鏈表,則進行鏈表遍歷,找到需要刪除的元素後,進行刪除;如果是紅黑樹,也是進行樹的遍歷,找到元素刪除後,進行平衡調節,註意,當紅黑樹的節點數小於 6 時,會轉化成鏈表。
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//根據key計算的索引檢查第一個索引
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
//不是第一個節點
if ((e = first.next) != null) {
if (first instanceof TreeNode)//遍歷樹查找元素
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
//遍歷鏈表查找元素
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
12 查找元素
①、通過 key 查找 value
首先通過 key 找到計算索引,找到桶位置,先檢查第一個節點,如果是則返回,如果不是,則遍歷其後面的鏈表或者紅黑樹。其餘情況全部返回 null。
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//根據key計算的索引檢查第一個索引
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
//不是第一個節點
if ((e = first.next) != null) {
if (first instanceof TreeNode)//遍歷樹查找元素
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
//遍歷鏈表查找元素
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
總結
①、基於JDK1.8的HashMap是由數組+鏈表+紅黑樹組成,當鏈表長度超過 8 時會自動轉換成紅黑樹,當紅黑樹節點個數小於 6 時,又會轉化成鏈表。相對於早期版本的 JDK HashMap 實現,新增了紅黑樹作為底層數據結構,在數據量較大且哈希碰撞較多時,能夠極大的增加檢索的效率。
②、允許 key 和 value 都為 null。key 重覆會被覆蓋,value 允許重覆。
③、非線程安全
④、無序(遍歷HashMap得到元素的順序不是按照插入的順序)
本文由
傳智教育博學谷
教研團隊發佈。如果本文對您有幫助,歡迎
關註
和點贊
;如果您有任何建議也可留言評論
或私信
,您的支持是我堅持創作的動力。轉載請註明出處!