news 2026/6/13 1:11:24

可观测性实战:快速定位 K8s 应用的时延瓶颈

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
可观测性实战:快速定位 K8s 应用的时延瓶颈

摘要:本文分享了某物流公司使用DeepFlow平台快速定位Nginx网关时延瓶颈的实战案例。该公司发现特定域名在夜间持续出现1秒超时,传统APM追踪和监控数据均无法定位根因。通过DeepFlow的零侵扰调用日志,分析人员迅速排除了业务响应慢和网络延迟的可能性,将问题锁定在Nginx自身。进一步分析确认,瓶颈源于Nginx配置中使用HTTP/1.0协议。将其升级为HTTP/1.1后,超时问题立即消失。本案例突显了DeepFlow基于eBPF的全链路、多协议观测能力在复杂环境中快速、精准定位故障的价值。

关键词:DeepFlow、Nginx、可观测性、故障排查、时延瓶颈、零侵扰、物流行业

本文为云杉网络原力释放 - 云原生可观测性分享会第十七期直播实录中的【可观测性实战系列】“实战案例其一·物流行业篇”。回看链接[1]PPT下载[2]

一、背景介绍

本次案例为某物流公司在今年 4 月份左右,SRE 通过监控 Nginx 日志,发现一个域名在每天晚上 12 点后存在大量持续 1s 的超时情况,这个问题困扰了用户近一个月。通过查看 DeepFlow 的调用日志,立即排除了业务响应慢的可能性,最终发现问题是 Nginx 自身配置问题导致的。这个案例展示了如何快速的定位 7 层网关时延瓶颈点。

01-nginx_access_log

问题持续排查了近一个月,问题的阻塞点如下:

  • 服务之间的访问关系复杂,插码(APM)形式追踪断路严重,无法直接确定瓶颈点所在位置
    • 服务跨集群部署
    • 部分服务内部通信即需要过 Nginx,又需要走 Ingress
    • 服务通信涉及多协议,既有 HTTP 又有 Dubbo
02-topology
  • 现有监控数据除 Nginx 日志超时以外,无任何异常情况,问题推进无头绪
    • 业务日志无 Error
    • Nginx 其他业务无 Error、无超时
    • Ingress 日志无 Error、无超时
    • 业务实例基础指标无毛刺
    • Ingress 监控指标无毛刺
    • Nginx 监控指标无毛刺

SRE 偶尔一次与 DeepFlow 社区沟通过程中说到此问题,社区推荐使用 Request Log 试试,应该能快速回答瓶颈点在哪里,在此之前 DeepFlow 开源版已经在逐步覆盖的过程中,正好存在响应慢的业务被 DeepFlow 覆盖了,接下分享下借助 DeepFlow 排障的整个过程。

二、排障过程

step 1:利用调用日志(Request Log),输入 url (request_resource 字段)确定超时情况存在。从趋势图可知,与 Nginx 日志反馈的情况一致

03-request_log

step 2: 聚焦一个时间段,利用调用日志的客户端/服务端,分析上下游

首先,利用调用日志的客户端作为服务端,追踪上游服务是否存在影响,可发现上游服务的时延在增加,因此可分析出来,上游服务时延的增加是由当前服务造成的,需要继续聚焦分析当前服务及下游服务是否存在瓶颈。

04-request_log_client

假设目前分析服务svc_a访问 Nginx 这一段的调用情况,将刚刚分析的数据绘制为拓扑图来看,将svc_a作为服务端,查看访问svc_a的客户端svc_b这条路径的延迟情况,结果显示延迟达到了1.5秒。因此,我们可以得出结论,目前的延迟问题很可能是由 Nginx 或者 Nginx 下游的服务引起的

05-topology_client

接下来利用调用日志的服务端作为客户端,去不停迭代追踪下游服务,可发现 Nginx 往下的服务响应都非常快,基本为 25ms 左右的时延,因此可以锁定时延瓶颈是 Nginx 造成的

06-request_log_server
07-topology_server

step 3:追踪某次调用的网络流日志,确定网络是否存在时延瓶颈。从图中可以看出来,网络上的建连时延和系统时延都不高,因此可以确定与网络无关,仅看 Nginx 自身问题即可

08-flow_log

step 4:追踪问题根因

接下来转交给了 Nginx 运维同学来继续定位,最后通过修改 Nginx 配置,将此业务的 HTTP 协议从 1.0 改为 1.1 后,1s 时延问题消失

三、问题总结

问:为什么 Nginx 中配置的 HTTP 协议从 1.0 改为 1.1 时延就消失了?因为笔者和运维同学都未对 HTTP 协议有特别深入的了解,以下为 ChatGPT 的回复,供大家参考。

HTTP 1.1 相较于 HTTP 1.0,引入了多个性能优化方面的改进,包括: 1. 持久连接:HTTP 1.1 支持在同一个TCP连接上发送多个HTTP请求和响应,减少了连接的建立和关闭次数,提高了性能和效率。 2. 流水线传输:HTTP 1.1 可以同时发送多个请求,而无需等待每个请求的响应返回,降低了网络通信的延迟,加快了数据传输速度。 3. 分块传输编码(Chunked Transfer Encoding):HTTP 1.1 可以将响应消息分成多个块进行传输和接收,提供了更快的响应时间,特别适用于大型或动态生成的内容传输。 4. 请求管线化(Request pipelining):在不等待响应返回的情况下,连续发送多个请求,减少了等待时间和网络延迟,提高了效率。 5. 缓存控制:HTTP 1.1 引入了更丰富的缓存控制机制,例如ETag、Cache-Control头部字段等,可以实现更精确的缓存控制,减少了对服务器的请求,提高了性能。 这些性能优化的改进使得HTTP 1.1相较于HTTP 1.0具有更好的性能和效率,提供了更快速、可靠的数据传输和网络通信。

问:DeepFlow 在整个案例的价值点是什么

  • 利用零插桩的调用日志(Request Log),分钟级锁定时延瓶颈点
  • 利用零插桩的流日志(Flow Log),分钟级确定非网络时延瓶颈
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 5:48:34

基于世界一流标杆与国企很热数字化实践系统化路径

在全面深化改革与建设世界一流企业的战略指引下,国企人力资源管理正迈向重大转型的关键节点。面对全球化竞争和技术变革的挑战,如何通过对标世界一流企业的人力资源管理理念,引入数字化转型的前沿思维,并结合国企自身的组织文化与…

作者头像 李华
网站建设 2026/6/12 23:10:57

这人啊,必须得靠自己赢一次

这是一个非常真实、深刻,甚至带点孤独感的问题。 你理性上清楚“协作更好”,但情感或现实中却依然选择独自前行——这背后往往不是“错误”,而是人在复杂处境中的自我保护、权衡,甚至是清醒的无奈。我们可以从几个层面来理解这种“…

作者头像 李华
网站建设 2026/6/5 5:32:08

化学镀银工艺:沉积动力学原理与在陶瓷基板应用中的厚度均匀性挑

引言化学镀银工艺在电子电镀与表面处理领域有着广泛应用。随着电子设备小型化和高性能化的发展趋势,对银镀层的性能和质量要求也日益提高。AG - 600B 化学镀银 - 快速作为一款具有特定性能的产品,其相关技术值得深入分析探讨。技术原理化学镀银过程是基于…

作者头像 李华
网站建设 2026/6/12 21:07:26

超越营销:招商的“家宴”,为何是品牌软实力的终极体现?

当几乎所有开发商都在营销战场上绞尽脑汁——比拼渠道、争夺流量、包装概念时,招商蛇口却似乎找到了一条“以柔克刚”的路径。它没有加入喧嚣的声量竞赛,而是年复一年、社区复社区地,操办着一场场看似“传统”甚至“老派”的家宴。从已交付社…

作者头像 李华
网站建设 2026/6/12 15:49:38

java+vue基于springboot的基于微信小程序的电子元器件商城_ta677h1g

目录基于SpringBoot和Vue的微信小程序电子元器件商城技术架构核心功能优势与特点开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于SpringBoot和Vue的微信小程序电子元器件商城 该系统结合SpringBoot后端框架与Vue前端技术&a…

作者头像 李华