說到Java,一定繞不開GC,儘管不是Java首創的,但Java一定是使用GC的代表。GC就是垃圾回收,更直接點說就是記憶體回收。是對記憶體進行整理,從而使記憶體的使用儘可能大的被覆用。 一直想好好寫一篇關於GC的文章,可是卻發現要寫的東西太大了,不是一篇博客能簡單的介紹完的。所以打算拆分成若幹篇博客,一 ...
說到Java,一定繞不開GC,儘管不是Java首創的,但Java一定是使用GC的代表。GC就是垃圾回收,更直接點說就是記憶體回收。是對記憶體進行整理,從而使記憶體的使用儘可能大的被覆用。 一直想好好寫一篇關於GC的文章,可是卻發現要寫的東西太大了,不是一篇博客能簡單的介紹完的。所以打算拆分成若幹篇博客,一點點的總結下來。 本篇主要介紹的是GC中的常用演算法。這些演算法被廣泛的應用於各個記憶體管理語言的虛擬機中,或者是各大常用的操作系統中。 說到GC,也就是垃圾回收,那麼需要做的事有兩件:
第一件是查找到哪些記憶體中的對象是已經廢棄掉的。
第二件事是如何清理掉這些已經廢棄掉的數據。
本文先來說說後者,如何清除掉這些記憶體中的廢棄數據。
1、標記清除演算法Mark-Sweep
這種演算法是最簡單最直接的演算法,也是其它演算法的一些最初思路。標記清除演算法其實就是對記憶體中的對象依次的進行判斷,如果對象需要回收那麼就打一個標記,如果對象仍然需要使用,那麼就保留下來。這樣經過一次迭代之後,所有的對象都會被篩選判(防盜連接:本文首發自http://www.cnblogs.com/jilodream/ )斷一次。緊接著會對記憶體中已經標記的對
象依次進行清除。 這個演算法比較簡單粗暴,實現起來比較簡單。
但是會留下兩個比較麻煩的問題:
(1)標記和清除需要兩遍迴圈記憶體中的對象,標記本身也是一個比較麻煩的工作,因此這種演算法的效率不是特別的高。
(2)對於分配的記憶體來說,往往是連續的比較好,因為這樣有利於分配大數據的對象。倘若當前記憶體中都是小段的記憶體碎片,會知道需要分配大段記憶體時,沒有可以放置的位置,而觸發記憶體回收。也就是空間不足而導致頻繁GC和性能下降。
2、複製演算法Copying
我在使用資料庫的過程中,曾經遇到這樣一個問題,表中的數據量相對來說比較大,大概30萬行,需要使用多個苛刻的條件刪除其中的大部分數據(因此無法使用索引),而只保留其中的較少數據。常規的delete語法使用起來是超時的。於是我查看維護人員的sql,發現一個很有意思的邏輯。首先查出資料庫表中需要保留的數據,放到一張臨時表中。然後徹底刪除掉原有的數據表。然後把這張臨時創建表的表名,改為當初的表名。這是一種典型的空間換取時間的方法。而複製演算法就是這樣一個思路。 複製演算法中,會將記憶體劃分為兩塊相等大小的記憶體區域A/B,然後生成的數據會存放在A區,當A區剩餘空間不足以存放下一個新創建的對象時,系統就會將A區中的有效對象全部複製到B區中,而且是連續存放的。然後直接清空A區中的所有對象。 由於編程語言中的對象,大部分在創建後很快就(防盜連接:本文首發自http://www.cnblogs.com/jilodream/ )會被回收掉,所以我們需要複製的對象其實並不多。 Java中的實現是這樣的: Java中將Eden和Survivor區同時作為複製演算法的使用區域。Survivor又分為From區和To區。這塊內容可以參考我的另外一篇博客,博客中有詳細的介紹:http://www.cnblogs.com/jilodream/p/6147791.html。每次GC的時候都會將Eden和Survivor的From區中的有效對象進行標記,一同複製到Survivor的To區。然後徹底清除原來的Eden區和From區的記憶體對象。與此同時To區就是下一次回收的From區。
複製演算法的缺點: 演算法使用了空間換取時間的思路,因此需要一塊空白的區域作為記憶體對象要粘貼的區域。這無疑會造成一種浪費。尤其是記憶體較小時。 演算法每次清除無效對象時,都要進行一次複製粘貼的對象轉移,因此對使用場景是有限制的。只有在有效對象占據總回收記憶體是非常小的時候,這種演算法的性價比才會達到最高。否則大量的複製動作所浪費的時間可能要遠遠大於空間換取時間得到的收益。因此這種演算法在Jvm中,也只被用來作為初級的對象回收。因為這時的有效對象比例最低,演算法的性價比是最高的。
3、 標記整理演算法 Mark-Compact
複製演算法需要一塊額外的記憶體空間,用於存放幸存的記憶體對象。這無疑造成了記憶體的浪費。我們還可以在原有的標記清除演算法的基礎上,提出了優化方案。也就是標記到的可用對象整體向一側移動,然後直接清除掉可用對象邊界意外的記憶體。(防盜連接:本文首發自http://www.cnblogs.com/jilodream/ )這樣既解決了記憶體碎片的問題。又不需要原有的空間換時間的硬體浪費。由於老年代中的幸存對象較多,而且對象記憶體占用較大。這就使得一旦出現記憶體回收,需要被回收的對象並不多,碎片也就相對的比較少。所以不需要太多的複製和移動步驟。因此這種方法常常被應用到老年代中。
標記整理演算法的缺點: 標記整理演算法由於需要不斷的移動對象到另外一側,而這種不斷的移動其實是非常不適合雜而多的小記憶體對象的。每次的移動和計算都是非常複雜的過程。因此在使用場景上,就註定限制了標記整理演算法的使用不太適合頻繁創建和回收對象的記憶體中。
4、分代收集演算法 Generational Collection
這種演算法就是將記憶體以代的形式劃分,然後針對情況分別使用性價比最高的演算法進行處理。在Java中,一般將堆分為老年代和新生代。新創建的對象往往被放置在新生代中。而經過不斷的回收,逐漸存活下來的對象被安置到了老年代中。越新的對象越可能被回收,越老的對象反而會存活的越久。因此針對這兩種場景,新生代和老年代也會分別採用前文所述的兩種演算法進行清理。
ps:話說現在寫篇博客越來越難了,今天以為畫個圖就可以發佈了,結果畫圖畫了一個小時。哎