談談HashMap與HashTable HashMap 我們一直知道HashMap是非線程安全的,HashTable是線程安全的,可這是為什麼呢?先聊聊HashMap吧,想要瞭解它為什麼是非線程安全的,我們得從它的原理著手。 jdk7中的HashMap HashMap底層維護一個數組,數組中的每一項 ...
談談HashMap與HashTable
HashMap
我們一直知道HashMap是非線程安全的,HashTable是線程安全的,可這是為什麼呢?先聊聊HashMap吧,想要瞭解它為什麼是非線程安全的,我們得從它的原理著手。
jdk7中的HashMap
HashMap底層維護一個數組,數組中的每一項都是Entry
transient Entry<K,V>[] table;
我們向HashMap放置的對象實際上是放置在Entry數組中
而Map中的key、value則以Entry的形式存放在數組中
private static class Entry<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Entry<K,V> next;
而這個Entry應該放在數組的哪一個位置上(這個位置通常稱為位桶或者hash桶,即hash值相同的Entry會放在同一位置,用鏈表相連),是通過key的hashCode來計算的。
當兩個key通過hashcode計算是相同的時候,就會發生hash衝突,HashMap解決hash衝突的辦法是使用鏈表。
簡而言之就是,如果該位置沒有對象,則將對象直接放到數組中,如果該位置有對象,順著存在此對象的鏈找(Map中不允許存在相同的key和value),如果不存在相同的,第一種情況:如果該鏈表擴容了,則把對象放入到數組中,原先存放在數組中的數據放置該對象的後面。第二種情況:如果該鏈表沒有擴容,則直接放到鏈表的最後。如果存在相同的,則進行替換。
當HashMap中的元素越來越多的時候,hash衝突的幾率也就越來越高,因為數組的長度是固定的。所以為了提高查詢的效率,就要對HashMap的數組進行擴容,而在HashMap數組擴容之後,最消耗性能的點就出現了:原數組中的數據必須重新計算其在新數組中的位置,並放進去,這就是resize。
值得註意的是,HashMap中key和value都允許有null值存在,不過只允許一個null的key,可以有多個null值的value。
jdk8中的HashMap
在JDK1.7的部分就只有鏈表結構,但是由於鏈表過長的時候查找元素時間較長,在JDK1.8的時候加入了紅黑樹,當鏈表超過一定長度之後,鏈表就會轉換成紅黑樹,便於查找和插入,在最壞的情況下,鏈表的時間複雜度是O(n),紅黑樹是O(logn),這樣會提高HashMap的效率。
在jdk8中,當同一個hash值得節點數大於8的時候,將不再以鏈表的形式存儲了,而是會調整成一顆紅黑樹。
static final int TREEIFY_THRESHOLD = 8;
從JDK1.8開始,HashMap的元素是以Node形式存在,主要結構如下:
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
JDK中Entry的名字變成了Node,原因是和紅黑樹的實現TreeNode相關聯。
可以看一下jdk8中的put方法,跟jdk7相比還是做了很大的改變。
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
//如果當前map中無數據,執行resize方法。並且返回n
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//如果要插入的鍵值對要存放的這個位置剛好沒有元素,那麼把他封裝成Node對象,放在這個位置上就可以了
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
//如果這個元素的key與要插入的一樣,那麼就替換一下
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//如果當前節點是TreeNode類型的數據,存儲的鏈表已經變為紅黑樹了,執行putTreeVal方法去存入
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
//還是鏈表狀態
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//判斷是否要轉成紅黑樹
if (binCount >= TREEIFY_THRESHOLD - 1)
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
//判斷閥值,決定是否擴容
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
HashMap的多線程不安全
個人覺得HashMap在併發時可能出現的問題主要是兩方面,首先如果多個線程同時使用put方法添加元素,而且假設正好存在兩個put的key發生了碰撞(hash值一樣),那麼根據HashMap的實現,這兩個key會添加到數組的同一個位置,這樣最終就會發生其中一個線程的put的數據被覆蓋。第二就是如果多個線程同時檢測到元素個數超過數組大小*loadFactor,這樣就會發生多個線程同時對Node數組進行擴容,都在重新計算元素位置以及複製數據,但是最終只有一個線程擴容後的數組會賦給表,也就是說其他線程的都會丟失,並且各自線程put的數據也丟失。
對第二種不安全的情況進行分析:HashMap的死迴圈
由於插入過程,新插入元素總是插入到頭部,源碼如下:
void transfer(Entry[] newTable) {
Entry[] src = table;
int newCapacity = newTable.length;
for (int j = 0; j < src.length; j++) {
Entry<K,V> e = src[j];
if (e != null) {
src[j] = null;
//這裡在做插入的過程中,總是將新插入元素放在鏈表頭
do {
Entry<K,V> next = e.next;
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
} while (e != null);
}
}
}
解析代碼:
e=3
Entry<K,V> next = e.next; 保存了3.next也就是7
e.next = newTable[i]; 表示3後面跟著的是null,newTable表示重新建立的一張表
newTable[i] = e; 表示在表的下標的那個位置放的是e(也就是3),也就說下圖中的下標為3的地方放了key=3這個對象
e=next;表示e=7了
第二次迴圈--
Entry<K,V> next = e.next; 保存了7.next也就是5
e.next = newTable[i]; 表示7.next=3了,說明3放到7的尾巴上去了
newTable[i] = e; 表示下圖中的下標為3的地方放了key=7這個對象
e=next;表示e=5了
又開啟了再一次的迴圈。
為什麼會發生死迴圈呢?
解析:多線程情況下,多個線程同時檢測到對數組進行擴容
當線程1正好插入了3(e=3),並且保存了e.next(也就7)
CPU正好切到了線程2,並且完成了擴容,如上圖所示。
之後我們對線程1繼續進行操作,把7也插進線程1中,可以看到如下所示:
但是由於受到線程2的影響,e=7,e.next=3,我們後面又得插入3了,然後插入3之後,因為3.next=7,所以我們又插入7,這樣就形成了死迴圈。
這個問題在JDK1.8中得到瞭解決,它用了新的索引插入方式
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//還是原索引位置
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
//原索引+ oldCap位置
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
由於擴容是在原容量基礎上乘以2,那麼hash碼校驗的時候會比原來的多一位,那麼只需要比較這個位置是0還是1即可,是1那麼就在原索引位置向後位移原容量大小即可,是0就不動。
HashTable
Hashtable是線程安全的,我們可以看看它的源碼
public synchronized V put(K key, V value) {
// Make sure the value is not null
if (value == null) {
throw new NullPointerException();
}
// Makes sure the key is not already in the hashtable.
Entry<?,?> tab[] = table;
int hash = key.hashCode();
int index = (hash & 0x7FFFFFFF) % tab.length;
@SuppressWarnings("unchecked")
Entry<K,V> entry = (Entry<K,V>)tab[index];
for(; entry != null ; entry = entry.next) {
if ((entry.hash == hash) && entry.key.equals(key)) {
V old = entry.value;
entry.value = value;
return old;
}
}
addEntry(hash, key, value, index);
return null;
}
在主要的函數上都加了synchronize同步關鍵字,所有線程競爭同一把鎖,所以線程安全。