GAIA-DataSet:面向AIOps研究的开源基准数据集
【免费下载链接】GAIA-DataSetGAIA, with the full name Generic AIOps Atlas, is an overall dataset for analyzing operation problems such as anomaly detection, log analysis, fault localization, etc.项目地址: https://gitcode.com/gh_mirrors/ga/GAIA-DataSet
AIOps数据集在现代运维智能化研究中扮演着关键角色,为异常检测、故障定位等核心任务提供必要的实验基础。GAIA-DataSet(全称Generic AIOps Atlas)作为CloudWise-OpenSource发布的开源数据集,整合了模拟业务系统的多维度运维数据,为AIOps领域的算法开发与系统评估提供了标准化实验平台。本技术文档将从价值定位、数据特性、应用指南及扩展资源四个维度,全面解析该数据集的架构设计与应用方法。
价值定位:AIOps研究的基础设施
GAIA-DataSet通过系统化采集和标注运维数据,构建了一套覆盖"指标-日志-追踪"三位一体的研究基准。该数据集的核心价值体现在:
- 研究可复现性:提供标准化数据输入,确保不同算法在相同基准下的比较有效性
- 场景真实性:基于模拟业务系统MicroSS构建,保留真实运维环境的复杂性特征
- 标注完整性:包含完整的异常注入过程记录,支持有监督学习模型开发
- 多模态融合:整合时间序列指标、非结构化日志与分布式追踪数据,支持多模态分析方法研究
数据特性:多层级数据架构与质量评估
数据规模与多样性
GAIA-DataSet包含三个层级的运维数据,具体规模指标如下表所示:
| 数据类型 | 核心指标 | 数据量 | 时间跨度 | 关键特征 |
|---|---|---|---|---|
| 指标数据 | 6,500+个监控指标 | 持续两周采集 | 13位时间戳 | 多维度系统监控指标 |
| 日志数据 | 700万+日志条目 | 系统运行日志 | 结构化时间戳 | 包含业务与系统两类日志 |
| 追踪数据 | 完整业务链路 | 全链路跟踪记录 | 微秒级时间精度 | 包含分布式调用关系 |
多层级数据架构
1. MicroSS数据集
- 指标数据(metric)
- 存储格式:CSV文件
- 核心字段:13位时间戳、指标数值
- 命名规则:包含节点信息、IP地址、指标名称及时间周期
- 跟踪数据(trace)
- 数据结构:结构化记录
- 关键属性:时间戳、主机IP、服务名称、追踪ID、跨度ID、父ID、开始/结束时间、URL、状态码、消息内容
- 业务日志(business)
- 记录维度:日期时间、服务名称、详细消息内容
- 主要内容:系统运行时的业务处理流程记录
- 系统运行日志(run)
- 特殊记录:系统状态日志和异常注入过程记录
- 格式特征:与业务日志类似,但专注于系统级运行状态
2. Companion Data数据集
- 异常检测数据(metric_detection)
- 数据规模:406个异常检测和指标预测样本(含279个带标签数据)
- 时间序列类型:
- 变化点数据(Changepoint)
- 概念漂移数据(Concept_drift)
- 线性数据(Linear)
- 低信噪比数据(Low_signal-to-noise_ratio)
- 部分平稳数据(Partially_stationary)
- 周期性数据(Periodic)
- 阶梯数据(Staircase)
- 日志数据(log)
- 总量:218,736条日志记录
- 子类别:
- 日志解析(log parsing)
- 日志语义异常检测(log semantics anomaly detection)
- 命名实体识别(NER)
异常注入方法论
数据集通过控制变量法实现异常场景模拟,具体方法包括:
- 用户行为控制:模拟不同负载条件下的用户访问模式
- 系统错误注入:按预设策略触发系统组件故障
- 数据记录机制:同步记录异常注入时间、类型及预期影响
- 标签生成规则:基于异常注入时间戳生成精确的标签数据[1]
数据集质量评估
| 评估维度 | 指标值 | 说明 |
|---|---|---|
| 时间覆盖率 | 14天连续采集 | 包含完整周周期特征 |
| 异常多样性 | 7种异常类型 | 覆盖常见运维故障模式 |
| 数据完整性 | >99.8% | 原始数据缺失率低于0.2% |
| 标注准确率 | 100% | 异常标签基于注入记录生成 |
应用指南:典型应用案例与技术实践
典型应用案例
案例1:基于日志的异常检测系统开发
应用场景:识别分布式系统中的异常日志模式
使用数据:business日志与run日志
关键步骤:
- 日志解析:使用正则表达式或深度学习方法提取结构化特征
- 特征工程:构建TF-IDF、word2vec等文本表示
- 模型训练:采用孤立森林或LSTM等算法构建异常检测模型
- 评估方法:基于标注数据计算F1-score与精确率
案例2:多指标联合异常定位
应用场景:复杂系统的故障根因分析
使用数据:metric数据与trace数据
技术路径:
- 时间序列预处理:缺失值填充与标准化
- 相关性分析:计算指标间的Pearson或Spearman相关系数
- 因果推断:使用PC算法或DoWhy框架构建因果图
- 定位精度:基于注入异常的平均定位时间评估
数据获取与预处理
数据集获取
git clone https://gitcode.com/gh_mirrors/ga/GAIA-DataSet数据解压流程
MicroSS数据集采用分卷压缩格式,解压命令示例:
# 解压业务数据 cat MicroSS/business/business_split.z* > business_combined.zip unzip business_combined.zip -d MicroSS/business/ # 解压指标数据 cat MicroSS/metric/metric_split.z* > metric_combined.zip unzip metric_combined.zip -d MicroSS/metric/数据预处理建议
- 时间对齐:统一不同数据源的时间戳格式(推荐转换为Unix时间戳)
- 异常标签:使用run日志中的异常注入记录生成标签文件
- 特征标准化:对指标数据采用Z-score或Min-Max标准化
扩展资源:学术对比与许可证说明
同类数据集对比分析
| 数据集 | 优势 | 局限 | 适用场景 |
|---|---|---|---|
| GAIA-DataSet | 多模态数据融合、完整异常标注 | 模拟数据场景有限 | 多模态AIOps研究 |
| AIOpsBench | 真实生产环境数据 | 异常标签不完整 | 工业级算法验证 |
| SLOG | 大规模日志数据 | 缺乏指标与追踪数据 | 纯日志分析研究 |
许可证应用说明
GAIA-DataSet采用Apache 2.0开源许可证,允许以下应用场景:
- 学术研究:免费用于学术论文发表与算法验证
- 商业开发:可集成到商业AIOps产品中,需保留原始许可证声明
- 二次分发:允许修改后重新分发,但需保持相同许可证条款
- 专利申请:基于数据集开发的算法可申请专利,但需在文档中声明数据来源
版本更新与社区资源
最新版本V1.10(2022年5月12日)新增特性:
- 扩展时间跨度:增加2021年8月的MicroSS数据
- 新增业务场景:包含更多中间件监控数据(Zookeeper、Redis、MySQL等)
- 完善数据标注:补充56个复杂异常场景的详细标注
社区支持资源包括:
- 数据集使用指南
- 基准模型性能指标
- 定期举办的AIOps算法竞赛
[1] 异常注入方法参考《Industrial Experience with Online Anomaly Detection for Complex Distributed Systems》(USENIX ATC 2020)
【免费下载链接】GAIA-DataSetGAIA, with the full name Generic AIOps Atlas, is an overall dataset for analyzing operation problems such as anomaly detection, log analysis, fault localization, etc.项目地址: https://gitcode.com/gh_mirrors/ga/GAIA-DataSet
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考