news 2026/6/13 9:51:54

Netty 堆外内存泄露排查实录:从 DirectByteBuffer 到 Linux 物理内存,我是如何找回丢失的 8GB?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Netty 堆外内存泄露排查实录:从 DirectByteBuffer 到 Linux 物理内存,我是如何找回丢失的 8GB?

标签:#Netty #内存泄露 #JVM调优 #DirectByteBuffer #Linux #故障排查


🚨 一、 案发现场:诡异的 OOM

时间:凌晨 03:00
报警:生产环境某 API 网关节点(配置 4C 16G)内存使用率超过 95%,随后服务不可用。
现场
重启服务后,观察监控,发现内存呈现“线性增长”的趋势,每小时增长约 500MB,直到撑爆物理内存。

JVM 配置:

-Xmx4g -Xms4g -XX:MaxDirectMemorySize=8g

怪象:

  1. 使用jstat -gcutil <pid> 1000观察,堆内存 (Heap)使用率非常健康,Old 区长期稳定在 30%。
  2. 使用top命令查看,进程的RES (物理内存)却高达 12GB。
  3. 计算题:12GB (RES) - 4GB (Heap) - 256MB (Metaspace) ≈7.7GB 的黑洞!

这 7.7GB 到底是啥?直觉告诉我们:Netty 的堆外内存漏了。


🧬 二、 嫌疑人画像:JVM 内存布局

在排查前,必须搞清楚 Java 进程的内存由哪几部分组成。

内存分布图 (Mermaid):

堆外区 (Off-Heap)

JVM 管理区

Java 进程 (OS 视角)

堆内存 (Heap)

非堆 (Metaspace, CodeCache)

DirectByteBuffer (NIO/Netty)

MappedByteBuffer (mmap)

JNI / Thread Stacks / GC Overhead

glibc 内存分配器 (Arena)

显然,我们的嫌疑人锁定在Direct Memory区域。


🔍 三、 第一轮排查:NMT 与 Netty 自检

1. 使用 NMT (Native Memory Tracking)

JVM 自带的 NMT 是排查堆外内存的第一把手术刀。
(注意:需在启动参数添加-XX:NativeMemoryTracking=detail)

jcmd<pid>VM.native_memory summary

输出结果(截取):

Total: reserved=14GB, committed=13GB - Java Heap (reserved=4GB, committed=4GB) - Internal (reserved=8.5GB, committed=8.5GB) <--- 异常点!

NMT 经常把 DirectBuffer 归类为InternalOther,这确认了是堆外问题,但不知道具体是哪行代码漏的。

2. 祭出 Netty 的核武器:ResourceLeakDetector

Netty 内置了一个极其强大的内存泄露检测器。它利用PhantomReference(虚引用)来追踪ByteBuf是否被垃圾回收,但在回收前没有调用release()

操作步骤:
修改启动参数,将检测级别调至最高(生产环境慎用,有性能损耗,但为了查 Bug 值得):

-Dio.netty.leakDetection.level=PARANOID

重启并压测后,日志里出现了令人兴奋的红字:

LEAK: ByteBuf.release() was not called before it's garbage-collected. See https://netty.io/wiki/reference-counted-objects.html for more information. Recent access records: ... Created at: io.netty.buffer.PooledByteBufAllocator.newDirectBuffer(PooledByteBufAllocator.java:331) ... com.company.gateway.filter.AuthFilter.channelRead(AuthFilter.java:45) <--- 凶手!

🕵️‍♂️ 四、 抓捕凶手:代码审计

日志明确指向了AuthFilter.java的第 45 行。我们来看代码。

Bug 代码示例:

publicclassAuthFilterextendsChannelInboundHandlerAdapter{@OverridepublicvoidchannelRead(ChannelHandlerContextctx,Objectmsg){ByteBufbuf=(ByteBuf)msg;if(checkToken(buf)){// 校验通过,传给下一个 Handlerctx.fireChannelRead(msg);}else{// ❌ 校验失败,打印日志,直接返回// 致命错误:这里中断了传递,但没有释放 buf!log.warn("Auth failed");// 应该在这里调用 ReferenceCountUtil.release(msg);}}}

原理解析:
在 Netty 中,ByteBuf是引用计数的。

  • 如果是SimpleChannelInboundHandler,它会自动帮你release
  • 如果是ChannelInboundHandlerAdapter(如上例),你必须手动负责释放
  • 如果你既不ctx.fireChannelRead(msg)往下传(下游会释放),也不手动release(),这个 DirectByteBuffer 对应的堆外内存就永远不会被归还给操作系统。

修复后的代码:

}else{try{log.warn("Auth failed");}finally{// ✅ 必须手动释放!ReferenceCountUtil.release(msg);}}

🔬 五、 深度追问:为什么 GC 没回收它?

很多同学有疑问:“Java 对象回收了,它引用的堆外内存不就自动释放了吗?”

这是一个经典的误区。

  1. DirectByteBuffer 的结构
    它在 Java 堆里只是一个很小的“壳”(Wrapper Object),可能只有几十字节。但它底层引用的 Native Memory 可能高达几 MB。
  2. GC 的惰性
    由于 Java 堆里的这个“壳”太小了,根本触发不了 Young GC,更别提 Full GC。
  3. 结果
    JVM 觉得:“堆内存还很空啊,我不急着 GC。”
    OS 怒吼:“物理内存都快爆了,你还在睡!”

这就是为什么我们不仅要依赖 GC,更要依赖 Netty 的Reference Counting(引用计数)机制来显式归还内存。


🚀 六、 避坑指南与总结

这次 8GB 内存找回之旅,给我们留下了宝贵的经验:

  1. Handler 选择:能用SimpleChannelInboundHandler就别用ChannelInboundHandlerAdapter,除非你非常清楚自己在做什么。
  2. 异常路径:90% 的内存泄露都发生在if-else的异常分支或try-catch块中,一定要检查所有路径是否都释放了资源。
  3. 监控常驻
  • 生产环境建议开启-Dio.netty.leakDetection.level=SIMPLE(采样检测)。
  • 关注DirectMemory指标(可通过 Micrometer/Prometheus 监控)。
  1. 工具链
  • jstat:看堆。
  • NMT:看 JVM 内部。
  • Netty Leak Detector:看 ByteBuf。
  • pmap/gdb:看 Linux 物理内存段(终极手段)。

Next Step:
去检查你项目中所有的 Netty Handler,搜索ChannelInboundHandlerAdapter,看看有没有被吞掉的msg。这可能就是你服务器莫名 OOM 的元凶。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 8:56:16

SpringBoot4零基础入门:5分钟创建你的第一个应用

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 为Java新手设计一个最简单的SpringBoot4入门项目&#xff0c;要求&#xff1a;1.创建一个显示Hello World的REST接口 2.添加简单的HTML欢迎页面 3.包含application.properties基础…

作者头像 李华
网站建设 2026/6/13 3:31:53

OneMore插件:OneNote效率革命的三部曲实战指南

OneMore插件&#xff1a;OneNote效率革命的三部曲实战指南 【免费下载链接】OneMore A OneNote add-in with simple, yet powerful and useful features 项目地址: https://gitcode.com/gh_mirrors/on/OneMore 还在为OneNote功能有限而烦恼吗&#xff1f;OneMore插件将彻…

作者头像 李华
网站建设 2026/6/13 4:15:06

5个开源视觉大模型部署推荐:GLM-4.6V-Flash-WEB镜像免配置

5个开源视觉大模型部署推荐&#xff1a;GLM-4.6V-Flash-WEB镜像免配置 智谱最新开源&#xff0c;视觉大模型。 1. 引言&#xff1a;为何选择开源视觉大模型&#xff1f; 随着多模态AI技术的快速发展&#xff0c;视觉大模型&#xff08;Vision Foundation Models&#xff09;已…

作者头像 李华
网站建设 2026/6/12 23:28:14

HunyuanVideo-Foley教学演示:课堂上直观展示AI创造力

HunyuanVideo-Foley教学演示&#xff1a;课堂上直观展示AI创造力 1. 引言&#xff1a;让视频“声临其境”的AI音效革命 在多媒体教学和数字内容创作中&#xff0c;音效是提升沉浸感的关键一环。然而&#xff0c;传统音效制作依赖专业音频库和人工剪辑&#xff0c;耗时耗力。2…

作者头像 李华
网站建设 2026/6/10 11:18:59

GLM-4.6V-Flash-WEB实战指南:Jupyter中调用视觉模型代码实例

GLM-4.6V-Flash-WEB实战指南&#xff1a;Jupyter中调用视觉模型代码实例 智谱最新开源&#xff0c;视觉大模型。 1. 快速开始 在本节中&#xff0c;我们将快速部署并运行 GLM-4.6V-Flash-WEB 视觉大模型&#xff0c;支持网页端与 API 双重推理模式。该模型基于单卡即可完成高效…

作者头像 李华
网站建设 2026/6/10 9:12:13

AI助力CentOS9系统配置:一键生成自动化脚本

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个基于AI的CentOS9配置助手&#xff0c;能够根据用户输入的配置需求&#xff08;如&#xff1a;安装LNMP环境、配置防火墙规则、设置定时任务等&#xff09;&#xff0c;自动…

作者头像 李华