前言
凌晨 1 点,生产环境告警突然响起:Aurora MySQL 数据库的阻塞事务数量飙升至 87 个/秒,远超 70 的告警阈值。作为 SRE,我们需要快速定位问题并给出解决方案。本文将完整记录这次问题排查的全过程,从告警分析到根因定位,再到解决方案的制定。
一、告警现场
1.1 告警信息
🔴 Server-ALARM: BlockedTransactions_P1 Region: US East (N. Virginia) Threshold: 70.0 blocked transactions/second Actual Values: - 01:01:00 UTC: 87.97 transactions/second - 01:02:00 UTC: 82.43 transactions/second1.2 数据库基本信息
- 实例类型: Aurora MySQL 8.0 (db.r7g.2xlarge)
- 引擎版本: 8.0.mysql_aurora.3.09.0
- 集群模式: 单写入节点
- 连接数: ~1,400 活跃连接
- Performance Insights: 已启用