文章原标题:JVM 调优系列 2:GC 如何判断对象是否为垃圾,三色标记算法应用原理及存在的问题,由此 GC 的制定机制是什么?不同 GC age 如何取值?
文章目录
- 前言
- 一、如何判断一个对象是否为垃圾?
- 1.1、reference count(引用计数)
- 1.2、reference count(引用计数)存在的问题
- 二、Root Searching(根可达算法或根搜索算法)
- 2.1、Root Searching 释义
- 2.2、根对象(root)的类型
- 三、三色标记算法原理与存在的问题
- 3.1、Mark-Sweep(标记清除)
- 3.1.1、Mark-Sweep(标记清除)应用原理
- 3.1.2、存在问题-内存碎片化
- 3.2、Copying(拷贝)
- 3.2.1、Copying(拷贝)应用原理
- 3.2.2、存在问题-浪费空间
- 3.3、Mark-Compact(标记压缩或标记整理)
- 3.3.1、Mark-Compact(标记压缩或标记整理)应用原理
- 3.3.2、存在的问题-效率过低
- 四、垃圾回收器的制定原则
- 4.1、综合三种算法的 GC
- 4.2、新生代里面对象的 age 要取值多少?
- 4.3、堆内存逻辑分区介绍(适用分代垃圾回收器)
- 4.4、为什么年轻代用 Copying(拷贝)算法?
- 4.5、 Copying(拷贝)算法在年轻代中的具体应用
- 总结
查看是否有引用指向该对象,有则说明该对象不是垃圾,反之就是垃圾。
我们通过下图的引用对象案例来说明。
如上图所示,我们可以看到一共是存在四个阶段。
- 第一阶段,有 3 个引用指向该对象,那该对象肯定不是垃圾。
- 第二三阶段,部分引用消失,分别各有 2 个和 3 个引用指向该对象,那该对象仍然不是垃圾。
- 第四阶段,没有任何引用再指向该对象,该对象沦为垃圾。这时垃圾回收器就可以将其回收。
当出现循环引用时,如下图所示:
我们可以看到,三个对象各自指向循环中的另一个对象,但是没有其他引用指向这三个对象,那这三个对象就属于“一堆垃圾”。
那现在我们上面所说的引用计数就不能解决这个该问题,这时我们就需要使用另外一种定位方式——Root Searching(根可达算法或根搜索算法)。
所谓的“根”即是:所有的程序都是从 main 方法来运行,在 main 方法里面 new 出来的对象即为根对象。
例如:在 main 方法里面我们 new 了一个 list 集合,在 list 集合中我们又可以存放若干其他对象,那我们就称 list 为根对象,我们顺着根的数据结构往下走,只要存在引用指向的对象,那该对象就不是垃圾,反之不存在引用的对象,那该对象就是垃圾。
如上图所示,对象一、二、三、四、五均是存在根对象的引用,对象五、六之间是我们上面所提到的循环引用,对象八不存在引用,故对象六、七、八是垃圾。
根对象不仅仅包括我们上面所说的 main 方法里面的对象,属于根对象的还有以下这些:
- JVM stack
- native method stack
- runtime constant pool
- static references in method area
- Clazz
GC Algorithms 到目前为止一共是有三种,我们将一一进行介绍。
- Mark-Sweep(标记清除)
- Copying(拷贝)
- Mark-Compact(标记压缩或标记整理)
如上图所示,我们将可回收的垃圾对象进行标记定位,进行清除即可。将垃圾位变为可用位。
算法比较简单,存在缺点,长时间的运行,内存中会存在大量的碎片(碎片化问题)。
何为碎片化?
由上述得知,每一小块可回收内存均需要标记后单独清除,在业务量较大,频繁更新数据的情况下,会有个别的“碎片”长期存在于内存中不去使用,占用资源空间。大量的碎片就会造成查询效率极其低下,所以我们就需要进行处理。
如果我们不想出现碎片化问题,我们就可以考虑使用 Copying(拷贝)算法。
如上图所示,拷贝算法不管内存有多大,直接一分为二,每次使用仅使用内存的一半,在被使用的内存即将用尽时,将可以使用的存活对象拷贝到另一半内存中,将剩下的可回收的垃圾对象进行回收操作。在另一半内存中进行正常操作,如此循环往复。
这种算法每次拷贝完成所有的内存空间都是排列在一起,故不会产生碎片化问题。
该算法的优势即是它的劣势,每次仅可以使用一般的内存空间进行操作,相当于浪费了一半的内存空间。
Mark-Compact(标记压缩)的优势在于完善了上述两种算法存在的缺点,既不存在碎片化问题,也不浪费空间。
把有用的存活对象压缩到内存空间的最前面,对可回收的垃圾对象进行处理,如上图所示。
由于每次在压缩之间都需要计算空间,导致回收的效率大大降低。
上述三种标记算法可谓是各有利弊,因此在实际应用中,一个垃圾回收器的制定是综合了上述三种算法。
如上图所示,我们将新诞生的对象存放在新生代里。如果新诞生的对象经历了数次垃圾回收仍然没有被回收掉(即每经历一次垃圾回收,该对象年龄 +1,即 age++),当 age 到达一定数值,将该对象置于老年代中进行特殊处理。
这个即是我们进行 JVM 调优所需要的自行调整的,根据项目需求来设置。
同时对于年龄的设置,与具体所使用的 GC 息息相关。
- 如果之前没有对 GC 进行调整或调优的话,默认使用的 GC 为使用的是 PS+PO(Parallel Scavenge+Parallel
Old),默认年龄为 15。 - 如果进行调整之后所使用的 GC 是 CMS,那 age 就是 6。
- 如果使用的 GC 是 G1 的话,则就彻底与 age 无关,因为该 GC 不分代。
在 4.1 图中,老年代为 tenured。我们将新生代分为三个部分:伊甸园区和两个 survivor 区。
- 伊甸园区,即对象诞生的地方,存放所有新生的对象,与在西方中我们人类诞生的地方——伊甸园想对应。
- survivor 区,幸存者区,存放没有在垃圾回收中被回收的对象,有两个,通常命名为 s0、s1 或者 s1、s2 等叫法。
我们一般在年轻代中使用的 GC 算法为 Copying(拷贝),老年代中使用的 GC 算法为 Mark-Sweep(标记清除)和 Mark-Compact(标记压缩或标记整理)。
首先我们先考虑 Mark-Sweep(标记清除)和 Mark-Compact(标记压缩或标记整理),上面我们已经说到,这两种 GC 算法的缺点分别是:产生碎片化问题、内存回收效率低。
程序产生对象后,该对象很可能会在很短的时间内被回收,根据统计,一次垃圾回收可以回收掉 90% 的对象。在这样的情况下,使用 Mark-Sweep(标记清除)和 Mark-Compact(标记压缩或标记整理)效率就太低了,会造成伊甸园区很快爆满或者大规模碎片化,而新产生的对象产生放进去的效率就会大大降低。
所以在 JVM 设计中,要求年轻代的算法效率是特别高、特别快的。而 Copying(拷贝)算法的效率是最高的,但是浪费了年轻代中至少一半的内存空间。
那我们既要利用好 Copying(拷贝)算法效率高的优势,又要尽量避免内存浪费的问题,怎么解决?
第一次垃圾回收:首先将 10% 的幸存对象拷贝到第一个 survivor 中,即 s0 中,然后将整个伊甸园区进行清除。这时所有有用对象都存放在 s0 中。如下图所示:
第二次垃圾回收:将伊甸园区中有用的对象拷贝到另一个 survivor 中,即 s1 中,再将之前 s0 中的对象(前提是有用)拷贝到 s1 中,对伊甸园区与第一个 s0 进行垃圾回收。这时所有有用的对象存放在 s1 中。如下图所示:
第三次垃圾回收:再次利用 s0,将之前存活的对象与伊甸园区中产生的新对象存放在 s0 中,对伊甸园区与 s1 进行二垃圾回收。如下图所示:
第 n 次垃圾回收:如此循环往复利用新生代中的伊甸园区与 survivor 区即可。
我是白鹿,一个不懈奋斗的程序猿。望本文能对你有所裨益,欢迎大家的一键三连!若有其他问题、建议或者补充可以留言在文章下方,感谢大家的支持!