GuavaCache与物模型大对象引起的线上内存暴涨分析_编程技术网-程序员技术内容聚合平台

（在说正事之前，我要推荐一个福利：你还在原价购买阿里云、腾讯云、华为云服务器吗？那太亏啦！来这里，新购、升级、续费都打折，能够为您省60%的钱呢！2核4G企业级云服务器低至69元/年，点击进去看看吧>>>)
背景介绍

首先对物联网平台的几个概念做下名词解释

名词

描述

产品

设备的集合通常指一组具有相同功能的设备

设备

归属于某个产品下的具体设备。

设备可以直接连接物联网平台也可以作为子设备通过网关连接物联网平台。

物模型

物模型是对设备在云端的功能描述包括设备的属性、服务和事件。

物模型是阿里云物联网平台为产品定义的数据模型用于描述产品的功能。

总结一下

产品是一类设备的集合物模型描述了这一类设备的功能包括属性、事件、服务。

比如创维电视是一个产品而每户家庭中的一个个创维电视则是具体设备这些电视设备都具有相同的功能即在创维电视这个产品上定义的功能。比如当前电视的频道、亮度、音量这些都是具体的属性比如如果电视的温度高于50摄氏度则可以上报报警事件比如可以通过服务调用的方式来控制电视的打开和关闭等等。

从以上的示例中可以总结出创维电视这款产品的物模型定义包括属性、事件、服务

属性 - 电视状态开/关、频道、亮度、音量等等

事件 - 电视温度过高事件

服务 - 控制电视开/关、调整电视亮度

具体的物模型是非常复杂的部分复杂的产品可能包含几百几千个属性、事件、服务因此完整的物模型是非常巨大的。

对于设备每次上报的属性、事件等物联网平台都会查询出相应的物模型对设备上报的数据进行校验。

本文记录线上环境大量设备上报数据进行物模型校验引起的一次内存告警分析

以一台单机进行分析

如上图所示十几分钟的时间内存从50%一路飙升到75% 最终稳定在77%左右不再上涨。

通过监控分析在13:40开始系统流量有所增长且都来自于一个租户

该租户是一个测试租户在压测与相关同学联系后停止压测集群重启后内存恢复正常。

问题分析Dump分析

可以看到占内存的基本是guava cache 本地缓存导致了内存疯狂上涨。

为什么guava cache导致内存上涨?

guava cache本地缓存了物模型对象 size 1000 缓存时间为一分钟。

关于物模型本地缓存已经上线运行了两周运行比较稳定为什么此次突然出现内存上涨

分析该租户下有1000个产品下的设备同时上报且持续在上报一个产品对应一个物模型。

本地缓存时 key 产品唯一标识符 value 物模型

每个产品的物模型非常大有130个属性单是文本大小已经达到70KB 实际Java对象占用内存更大。

实际Java对象到底有多大

shallow heap表示这个对象本身大小

retained heap表示这个对象所有引用对象

对于一个json或map对象想计算该对象所引用的所有对象大小应该关注的是retained heap

看上图一个guava cache的entry占用内存 1508096 B ≈ 1508 KB ≈ 1.5 MB

为什么会这么大有1.5 M

展开来看

entry内部对象有next、valueReference、key等

其中next其实是下一个entry的大小了图中显示为856512 B ≈ 856 KB 这里不过多关注

实际重点关注valueReference

引用了一个JSONObject 这是缓存TSL对象的主要内存占用大小为 651384 B ≈ 651 KB

即一个物模型对象在内存中的大小约为651 KB

一个物模型对象就如此之大那么1000个产品的物模型如果都在本地缓存势必占用非常大的内存空间。

但是即便如此为什么会造成内存的持续上涨为什么GC没有回收掉

GC日志分析

查看GC日志经过一定处理后如下

分水岭

可以看到

13:40之前每次YGC后老年代内存增量平均值为10K左右

13:40之后每次YGC后老年代内存增量平均值为35000K左右

直接增长了3500倍

通过上面的GC日志可以看到老年代的内存在持续上涨也就是说每次YGC后都有相当一部分对象晋升到了老年代。这是导致内存持续增长的根本原因。

线上JVM配置

-Xms5334m?

-Xmx5334m?

-Xmn2000m

-XX:MetaspaceSize 256m?

-XX:MaxMetaspaceSize 512m

-XX:MaxDirectMemorySize 1g?

-XX:SurvivorRatio 10

-Xmn2000m 表示新生代总大小为2000M 从ParNew的GC日志看新生代总大小实际为1877376K 与2000M有一定偏差。

且eden: survivor1 : survivor2 10:1:1

按新生代总大小2000M计算 survivor大小约为170M

按新生代总大小1877376K计算 survivor大小约为156M

垃圾回收 - 复制算法

新生代分为Eden和2个survivor 其中两个survivor分别叫From Survior和To Survior。

每次使用Eden和From Survivor。

YGC时将Eden和From Survivor中存活的对象复制到To Survivor空间最后清理掉Eden和From Survivor空间。

YGC后 From Survivor和To Survivor两块区域会调换也就是原先的To Survivor会变成下次YGC时的From Survivor区原先的From Survivor区会变成下次YGC时的To Survivor区。

图一初始状态

图二在新生代创建对象

图三 YGC Eden和From Survivor中存活的对象移到To Survivor中然后回收Eden和From Survivor的空间。

图四转换From Survivor和To Survivor。

循环上面的步骤

内存分配策略对象优先在Eden区分配

大多数情况下对象在先新生代Eden区中分配。当Eden区没有足够空间进行分配时虚拟机将发起一次YGC

大对象直接进入老年代

JVM提供了阈值参数-XX:PretenureSizeThreshold 大于参数设置的阈值的对象直接在老年代分配。

默认值为0 代表不管多大都是先在Eden中分配内存。

经排查该参数未设置默认是0 表示对象都在Eden分配。

对象什么时候进入老年代策略一大对象直接进入老年代

有一些占用大量连续内存空间的对象在被加载伊始就会直接进入老年代。这样的大对象一般是一些数组,长字符串之类的对象。

-XX:PretenureSizeThreshold

我们可以通过这个参数设置。

这种case可以排除因为目前默认为0 表示对象都在新生代分配。

策略二长期存活的对象将进入老年代

在对象的对象头信息中存储着对象的年龄如果每次YGC后对象存活了下来则年龄会增加。当这个年龄达到15后这个对象将会晋升到老年代。

-XX:MaxTenuringThreshold

我们可以通过这个参数设置这个年龄值默认15次存活进入老年代。

这种case可以排除因为guava cache中对象活不过15次YGC。这个之前仔细验证过。

cache size 1000 失效时间为1分钟。

线上一分钟内YGC 2 ~ 5次也就是说缓存中的对象年龄一分钟内最多会增加到5 但是一分钟后缓存失效这些对象失去了引用下次回收就可以回收掉这些对象了因而在年龄没有达到15之前会被回收掉失去了达到15后晋升到老年代的机会。

线上做过实验。

如果失效时间改为5分钟则会造成内存持续上涨 5分钟的时候这些对象年龄达到了15 晋升到了老年代。晋升到老年代后再被淘汰或者过期失效 YGC已经回收不掉除非是fullgc

如果失效时间改为1分钟后内存平稳不再出现持续上涨。

策略三对象动态年龄判断

此策略发生在Survivor区。虚拟机并不是永远要求对象的年龄必须达到MaxTenuringThreshold才能晋升到老年代如果在Survivor空间中相同年龄的对象大小大于survivor空间的一半那么年龄大于或等于该年龄的对象就可以直接进入老年代无须等到MaxTenuringThreshold要求的年龄。

这种case存在可能性 guava cache中对象在失效前必然存在于survivor中如果这些对象的总大小超过了survivor空间的一半就会晋升到老年代无须年龄达到15

但是从GC日志来看每次老年代的增量为35M左右没有达到survivor空间的一半 survivor空间有170M 一半有85M左右因此这种case也可以排除。

策略四 YGC后进行移区 survivor无法容纳的对象将进入老年代。

这是针对复制算法的。当前YGC使用的ParNew收集器正是使用的复制算法。

新生代分为Eden和2个survivor 每次使用Eden和其中一块survivor。YGC时将Eden和survivor中还存活的对象一次性复制到另一个survivor空间最后清理掉Eden和刚才使用的survivor空间。如果复制的时候需要复制的对象总大小超过了survivor空间则survivor无法容纳的对象将进入老年代。

这种case存在很大可能性基本可以确定就是这种case引起的内存暴涨。

查看上面的GC日志每次YGC后新生代剩余大小在170M左右基本就是survivor填满了而老年代内存增长了大概率就是YGC后存活的对象 survivor中放不下了于是直接进入老年代。

为什么内存上涨到75%后不继续上涨了

75%后发生了fullgc 回收掉了老年代中已经过期和已经被淘汰的TSL对象。

可以看到每次fullgc后堆内存都大幅度下降。

从日志看确实发生了fullgc 且fullgc耗时较短。

老年代使用的CMS回收器包括4个步骤

初始标记 CMS initial mark

并发标记 CMS concurrent mark

重新标记 CMS remark

并发清除 CMS concurrent sweep

其中初始标记、重新标记这两个步骤仍然需要Stop The World

从日志看初始标记耗时0.04秒重新标记耗时0.33秒 STW总时间为0.37秒对应用影响不大。

为什么fullgc堆内存降低后应用内存没有降低

使用CMS垃圾收集器 Java应用不会把内存还给操作系统。

因此从上面图片可以看到 fullgc后堆内存明显降低了但是应用内存还是维持在75%不变。

为什么普通的物模型没有问题只有这次特殊租户压测出问题了

因为普通的物模型对象大小有限根本达不到650KB 且线上不会出现同时有数千个产品上报且这些产品的物模型对象都非常大之前是不存在这种场景的。

从之前的GC日志来看

每次YGC后新生代剩余空间某个survivor 在50M左右。由于存活的对象大小没有达到survivor空间的一半因此不会触发策略三。

每次YGC后 survivor空间只有50M左右说明survivor有足够的空间容纳存活的对象因此不会触发策略四。

而此次特殊租户是同时出现了1000个产品下的设备上报数据每次会产生1000个物模型大对象而不只是几个而且是在持续上报。

从GC日志分析触发了策略四。

为什么物模型本地缓存的size设置为1000 失效时间设置成一分钟

线上的产品数量非常多常用的有数万个随着业务增长数量会更多。

本地缓存难以全部缓存这些产品的物模型占用的内存空间太大只能缓存一部分热点数据因此size设置为1000

如果失效时间设置较长则这些物模型对象会活过15次YGC 进入老年代。而实际上这些物模型对象并不是静态数据也是会发生变化的存在主动失效、LRU失效、缓存过期失效这3种情况失效后这些对象在老年代必须等fullgc才能回收。而业务上又会产生新的物模型对象不断进入老年代这样会造成老年代空间持续上涨。

问题总结

通过上面的分析可以总结问题的原因

1、大量产品下的设备同时上报且每个产品的物模型对象都非常大。

2、guava cache引用了这些大对象每次YGC移区时 survivor空间放不下这些大对象直接进入了老年代。

3、持续的设备上报数据导致不断的有大对象进入老年代。

4、物模型对象进入老年代后尽管缓存失效时间到了但是已经处在老年代 YGC回收不掉除非FullGC

后续Action

该问题是由于本地缓存和大对象引起因此后续将从本地缓存和大对象这两个维度分别进行优化。

本地缓存调优

本地缓存务必弄清楚使用场景

为什么需要本地缓存 size设置多大失效时间设置为多少大概占用多大的内存这些都是要仔细评估的。

从热点数据和静态数据分别分析一下。

本地缓存热点数据

场景大量的数据存在redis缓存中数据量大数据会变化可能部分数据存在热点问题。

本地缓存使用设置本地缓存max num、过期时间。

本地缓存作用之一是防止redis热点之前线上出现过多次物模型redis热点尽管对于redis服务端只是单个节点抖动但是对于应用来说却是每台机器redis连接池都有可能被打满这会影响整个集群的机器如果持续时间长将会引发严重后果。

因此本地缓存有必要。

单个survivor空间大小约为156M ~ 170M

1、约束本地缓存失效时间不能让本地缓存中对象抗住15次YGC 从而晋升到老年代。如果进入老年代后才被淘汰或失效此时YGC已无法回收必须FULL GC才行

2、约束本地缓存总大小不超过survivor空间的一半这样不会触发策略三即对象动态年龄判断。

3、至于是否触发了策略四每次调优后需要密切观察GC日志查看每次YGC后新生代剩余对象大小以及老年代的增量。

在放热点的场景下可以考虑将本地缓存中的K-V设置为弱引用 guava cache支持设置弱引用。一旦设置成弱引用则在每次YGC时会将这些弱引用对象回收确保不会进入老年代。

本地缓存静态数据

场景静态数据缓存数据量不大或者有一个大概可接受的总量数据基本不会变化。

本地缓存使用缓存所有静态数据到本地设置较大的max num 不设置过期时间缓存数据不会被淘汰。

比如本地缓存一些静态配置这些数据总量不大且不会变化则可以全部缓存到本地永不过期永不淘汰。这些对象会全部晋升到老年代但是内存大小有限不会引起问题。

实际也可以接受少量数据淘汰这种场景内存增长很有限不会造成内存问题。

这种场景要充分评估静态数据的内存占用大小。

大对象优化

大对象对于系统整体稳定性会造成一定影响。

从redis拉取大对象 qps一高很容易形成热点且造成网络流量突增。

大对象超生夕灭会加重GC负担。

大对象日志打印将给磁盘IO带来影响。

产品设计上约束

在定义物模型时明确说明如果超出一定限制后在设备上报时将不再做物模型校验。

这样就不会产生大对象从源头上限制住了。

自动降级

拉取到物模型后程序中计算出该物模型占用的内存大小如果大小超出阈值则自动关闭该物模型的校验不再缓存该大对象。

本文转自网络，原文链接：https://developer.aliyun.com/article/785968