DeepXplain：XAI引导的对抗多阶段APT活动的自主防御-洪萨配资

大家读完觉得有帮助记得关注和点赞！！！

摘要

高级持续性威胁是具有隐蔽性和多阶段性的攻击，需要自适应且及时的防御。虽然深度强化学习能够实现自主网络防御，但其决策往往不透明，在操作环境中难以获得信任。本文提出了 DeepXplain，一个用于阶段感知 APT 防御的可解释 DRL 框架。DeepXplain 基于我们之前的 DeepStage 模型，集成了基于溯源的图学习、时间阶段估计以及一个统一的 XAI 流程，该流程提供结构、时间和策略层面的解释。与事后方法不同，解释信号通过证据对齐和置信度感知的奖励塑造直接融入策略优化。据我们所知，DeepXplain 是第一个将解释信号融入强化学习以进行 APT 防御的框架。在一个真实企业测试平台上的实验表明，阶段加权 F1 分数和成功率均有提升，同时实现了更高的解释置信度、更好的保真度和更紧凑的解释。这些结果证明了自主网络防御的有效性和可信度得到了增强。

索引术语：高级持续性威胁，深度强化学习，自主网络防御，溯源图嵌入，可解释人工智能。

引言

高级持续性威胁[1]仍然是对企业网络最具挑战性的攻击类型之一。与机会性恶意软件不同，APT 活动隐蔽、“低慢”且多阶段，通过侦察、初始入侵、权限提升、横向移动、命令与控制以及数据泄露等阶段逐步演进。其分布式和长时间跨度的特性使得使用传统的基于规则或基于签名的防御难以检测和遏制，因为这些方法缺乏推理因果系统交互和长期攻击演进的能力。

深度强化学习的最新进展使得开发能够适应动态威胁的自主网络防御智能体成为可能。在我们之前的工作中，我们提出了 DeepStage[9]，这是一个阶段感知的自主防御框架，它使用融合的溯源图对企业活动进行建模，并通过 DRL 学习缓解策略。通过结合基于图的表示学习和时间阶段估计，DeepStage 提高了对抗多阶段 APT 活动的防御有效性。然而，与许多基于 DRL 的系统类似，它作为一个黑盒运行：虽然它能产生有效的决策，但并未为其预测或行动提供可解释的依据。

这一局限性在安全操作中尤为关键。诸如主机隔离、凭证撤销和流量阻断等防御行动可能引发显著的操作中断，因此需要由人类分析师进行验证。如果没有可解释的证据，自主防御策略在实践中仍然难以获得信任、进行审计和部署。可解释强化学习的最新进展强调了在序贯决策系统中透明度的必要性，尤其是在安全关键领域。这些研究强调，DRL 智能体往往缺乏可解释性，这限制了它们在可靠性及问责制至关重要的现实世界中的应用。与此同时，可解释图神经网络方法已成为识别驱动模型预测的关键节点、边和子图的有效工具。这类能力为解释基于溯源的安防分析提供了坚实的基础。然而，现有方法主要关注静态预测任务，并未在图形级解释与强化学习中的序贯决策之间建立直接联系[8, 12]。

在本文中，我们提出了 DeepXplain，这是 DeepStage[9]的一个 XAI 引导的扩展，用于对抗多阶段 APT 活动。DeepXplain 引入了一个统一的解释流程，该流程捕获来自溯源图的结构性证据、关于攻击演化的时间归因以及防御决策的特征级策略归因。与常规的事后方法不同，这些解释信号通过证据对齐正则化和置信度感知的奖励塑造直接融入强化学习。这使解释与策略学习紧密结合，使智能体能够做出既有效又具有可解释性的决策。我们在一个真实的企业测试平台中使用 CALDERA 驱动的 APT 场景[3]对 DeepXplain 进行了评估。实验结果表明，DeepXplain 将平均阶段加权 F1 分数从 0.887 提高到 0.915，并将缓解成功率从 84.7% 提高到 89.6%。此外，与事后基线相比，它产生了更可靠、更简洁的解释，实现了更高的解释置信度、紧凑性和保真度。

XAI 引导的自主 APT 防御

本节介绍 DeepXplain，它是 DeepStage 框架[9]的一个 XAI 引导的扩展，用于对抗多阶段 APT 活动，如图1所示。虽然 DeepStage 通过深度强化学习实现了自适应防御，但其决策过程仍然不透明，限制了信任度和实际操作部署。

DeepXplain 通过将可解释人工智能紧密集成到推理和决策中来解决这一局限性。具体来说，它统一了溯源图解释、时间归因和策略层面解读，并将这些解释信号直接融入策略优化。这种设计使得学习到的防御策略不仅有效，而且在安全关键环境中具有证据驱动、可解释和可靠的特点。

系统模型

来自主机和网络监控系统的企业遥测数据被转换为溯源图 G_t = (V_t, E_t)，其中节点 V_t 代表系统实体（如进程、文件、套接字），边 E_t 编码因果联系，如进程派生或网络通信。这种表示同时捕获了系统中的结构依赖性和事件因果性。

一个图神经网络将溯源图编码为 g_t = f_GNN(G_t)，其中 g_t ∈ ℝ^d。嵌入 g_t 将系统内的复杂交互总结成一个适合学习的紧凑表示。

为了捕获时间演化，嵌入序列由一个阶段估计器处理：p_t = f_LSTM(g₁, …, g_t)，其中 p_t ∈ ℝ^K。向量 p_t 表示在 K 个 APT 阶段上的概率分布，能够对攻击进展进行时间推理。

由于真实的系统状态是部分可观测的，我们采用 POMDP 公式。信念状态更新为 b_t = f_LSTM(b_{t-1}, o_t)，观测 o_t = [g_t, p_t, a_{t-1}]，其中 b_t 集成了历史观测和行动以近似潜在的系统状态。策略随后选择一个防御行动 a_t ∼ π_θ(a|b_t)，允许上下文感知的缓解策略。

XAI 流程

为了增强可解释性，DeepXplain 引入了一个对模型中间表示进行操作的 XAI 模块。在每个时间步，该模块接收

这些共同捕获了结构、时间和决策层面的信息。

该模块产生一个解释信号

其中 G_t^* 识别关键图结构，I_t 突出重要时间步，A_t 解释所选动作。这种统一的表示使得能够跨防御过程的多个维度进行全面的推理。

基于图的解释

为了解释攻击阶段预测，我们识别一个能够保留模型预测的子图：

这个公式旨在寻找足以维持预测阶段的最小结构证据。

我们采用 GNNExplainer[12]，它学习软掩码

为节点和边分配重要性分数。这些分数突显了关键的攻击模式，例如可疑的进程链或横向移动路径。

时间归因

APT 攻击随时间演化，因此识别关键时间事件至关重要。我们将时间归因计算为

这衡量了每个过去嵌入对当前预测的影响强度。归一化重要性 Ĩ_i = I_i / ∑_j I_j 形成时间步上的概率分布，从而能够识别攻击生命周期中的关键转变。

可解释的防御策略

为了解释防御决策，我们分析策略对信念状态的敏感性：

这揭示了哪些特征（如高攻击阶段概率或异常活动）驱动了所选行动。归一化归因定义为 ϕ_policy = A_t / ‖A_t‖₁，它提供了一个可比较的重要性分布。

为了使结构解释与策略推理对齐，我们将图解释投影到信念空间：

其中 w(v) 是节点重要性，h_v 是节点嵌入。然后我们计算 ϕ_XAI = (W_g g_t^* + W_p p_t) / ‖W_g g_t^* + W_p p_t‖₁，它将结构证据和阶段信息集成到与策略相同的特征空间中，从而能够直接比较。

XAI 引导的策略优化

我们通过一个对齐损失将解释信号融入策略学习：

这鼓励策略关注由可解释证据支持的特征。

为了量化解释的可靠性，我们定义

其中每个项捕获解释质量的不同方面。这里，C_graph = ∑{v∈V_t^*} w(v) / ∑{v∈V_t} w(v) 测量结构完整性，C_temp = 1 - (-∑_i Ĩ_i log Ĩ_i) / log t 测量时间集中度，C_policy = (ϕ_policy^T ϕ_XAI) / (‖ϕ_policy‖₂ ‖ϕ_XAI‖₂) 测量解释与策略之间的一致性。

最后，增强的目标函数是

其中 λ₁ 强制执行证据对齐，λ₂ 奖励可靠的解释。在实践中，这个目标函数使用 PPO 进行优化，在策略更新期间，增强的奖励替代了标准奖励。这种公式紧密整合了解释和决策，使 DeepXplain 能够学习不仅有效而且可解释的策略，并且能够抵御复杂的多阶段 APT 行为。

性能评估

本节从防御有效性和解释质量两个方面评估所提出的 DeepXplain 框架。由于 DeepXplain 建立在 DeepStage 之上，我们继承了先前工作[9]中使用的相同企业测试平台、遥测管道、攻击场景和防御动作空间。除非另有说明，所有与可解释性无关的组件都遵循与 DeepStage 相同的配置，以隔离所提出的 XAI 引导扩展的影响。

表 I：各阶段 F1 分数和整体防御有效性比较。

方法	侦察	初始入侵	权限提升	横向移动	命令与控制	数据泄露	平均 F1	成功率 (%)
风险感知 DRL	0.75	0.73	0.70	0.71	0.76	0.72	0.728	68.5
DeepStage	0.91	0.88	0.85	0.87	0.92	0.89	0.887	84.7
DeepXplain	0.93	0.91	0.89	0.90	0.94	0.92	0.915	89.6

实验设置

企业测试平台和数据源

遵循 DeepStage[9]，实验在一个逻辑上划分为四个区域的真实企业测试平台中进行：局域网、非军事区、服务器区和管辖区。主机级遥测通过端点监控工具收集，而网络级事件由基于 Zeek 的传感器捕获。这些事件被归一化并融合成溯源图，其中节点代表系统实体，边编码因果交互。

为了模拟真实的多阶段 APT 活动，我们使用 CALDERA 驱动的对手手册[3]，涵盖侦察、初始入侵、权限提升、横向移动、命令与控制以及数据泄露。同时执行良性背景活动以产生现实噪声并增加检测难度。为确保公平比较，这里保留了 DeepStage 中使用的相同攻击阶段定义、遥测收集间隔和图构建窗口。所有报告的结果均为 10 次独立运行的平均值。

模型配置

DeepXplain 重用了 DeepStage 的核心主干，包括 GNN 编码器、基于 LSTM 的阶段估计器和基于 PPO 的防御策略。图编码器产生嵌入 g_t ∈ ℝ^d，阶段估计器输出 p_t ∈ ℝ^K。信念状态 b_t ∈ ℝ^{d_b} 使用与 DeepStage 相同的观测结构进行递归更新。

对于 XAI 组件，图解释模块使用 GNNExplainer[12]实现。解释器为每个图实例学习节点和边掩码，进行 100 个优化步骤，学习率为 10^{-2}。我们在掩码后保留前 m 个解释节点，其中 m 的选择旨在保留 G_t^* 中至少 90% 的累积节点重要性。时间归因使用梯度敏感性在序列的图嵌入上计算，策略归因从策略网络梯度相对于信念状态特征计算。

XAI 引导的优化参数

第 III-F 节引入的 XAI 引导目标包括公式(10)中的一个对齐正则化项和一个基于置信度的奖励项。在我们的实验中，对齐系数设置为 λ₁ = 0.1，这提供了一个适度的约束，鼓励策略注意力与解释导出的证据对齐，同时保持策略的灵活性。解释置信度权重设置为 λ₂ = 0.05，允许在不压倒原始防御目标的情况下进行置信度感知的奖励塑造。这些值选自第 III-F 节讨论的范围，即 λ₁ ∈ [0.01, 0.5] 和 λ₂ ∈ [0.01, 0.3]，并被发现能够提供稳定的训练。对于公式(9)中的解释置信度分数，我们设置 (α, β, γ) = (0.4, 0.2, 0.4)。此权重优先考虑结构完整性和策略-证据一致性，同时仍然考虑时间集中度。

基线

我们将 DeepXplain 与以下基线进行比较：

风险感知 DRL [5]：一个基于强化学习的防御框架，利用攻击图风险建模来最小化累积安全风险。
DeepStage [9]：原始的阶段感知自主防御框架，没有 XAI 引导。
DeepStage + 事后 XAI：DeepStage 仅添加了解释模块以实现可解释性，但未将解释信号纳入策略学习。

结果分析

防御有效性

表 I 总结了所有方法在与 DeepStage 相同评估设置下的各阶段和整体防御有效性。DeepXplain 在所有 APT 阶段始终达到最佳性能，获得了最高的平均阶段加权 F1 分数 0.915，而 DeepStage 为 0.887，风险感知 DRL 为 0.728。这种改进在所有阶段都是一致的，并且在权限提升和横向移动期间尤为显著，在这些阶段，准确的态势感知和及时的干预对于防止攻击扩散至关重要。这些结果突显了整合解释引导信号的好处，这使得智能体能够专注于因果相关的系统行为，而不是虚假的相关性。值得注意的是，尽管 DeepStage 本身已经表现出色，但仍获得了这些增益，这表明解释感知学习在表征学习之外还有更多贡献。

与风险感知 DRL 的比较进一步证明了静态、面向风险的表示方法的局限性。虽然风险感知方法捕获了全局攻击面，但它们依赖于粗糙的攻击图抽象，并且缺乏模拟多阶段 APT 行为所需的细粒度、时间和因果背景。因此，它们的性能在攻击后期会下降，而在这些阶段，精确推理系统动态至关重要。

与 DeepStage 相比，DeepXplain 在整体缓解有效性方面取得了显著改进，成功率从 84.7% 提高到 89.6%。缓解成功率定义为防御智能体阻止 APT 达到命令与控制或数据泄露等关键阶段的攻击事件百分比。这些增益表明，将 XAI 融入学习过程不仅增强了可解释性，还带来了更可靠、更高效的防御决策。通过使策略学习与可解释证据对齐，DeepXplain 使智能体能够优先考虑紧凑、时间一致且因果有意义的信号，从而在复杂的 APT 场景中提高鲁棒性和响应质量。

防御响应能力

图2展示了整个 APT 生命周期中的防御响应能力。DeepXplain 的响应速度始终快于所有基线，并且在整个过程中保持更高的响应水平。在早期攻击转换点，DeepXplain 达到了 0.86 的响应能力，优于 DeepStage 和风险感知 DRL。在关键的权限提升阶段，它达到 0.96，而 DeepStage 为 0.93，风险感知 DRL 为 0.60。在收敛时，DeepXplain 稳定在约 0.98，超过 DeepStage，并显著优于风险感知 DRL。这种优势在从权限提升到横向移动的过渡期间最为明显，此时快速遏制至关重要。这种改进是由解释引导的策略优化驱动的，它能够更早地检测到阶段转换，并实现更及时、与证据一致的响应。

（图2说明）
防御反应与 APT 阶段进展的关系。

（图3说明）
解释质量比较。

解释质量

图3从两个互补的角度评估了生成解释的质量：置信度、紧凑性和保真度。DeepXplain 在所有指标上始终优于 DeepStage + 事后 XAI。具体来说，DeepXplain 实现了更高的解释置信度分数，表明提取的证据更一致、更可靠。紧凑性衡量解释的简洁性，定义为解释一个决策所需的重要图元素的比例。较低的紧凑性值表明解释集中在更小、更相关的节点和边子集上。DeepXplain 产生了更紧凑的解释，展示了其定位关键攻击模式同时过滤掉噪声依赖关系的能力。此外，我们评估了保真度，它衡量生成的解释在多大程度上反映了模型的真实决策行为。保真度通过检查当识别的解释组件被移除时，模型预测置信度下降的程度来评估。DeepXplain 实现了更高的保真度分数，表明其解释捕捉到了驱动模型预测的实际因果因素，而非表面相关性。

这些结果突显了事后解释方法的一个根本局限性。虽然它们在训练后提供了可解释性，但它们并不影响学习过程，因此无法防止依赖虚假相关性。相比之下，DeepXplain 将解释信号直接整合到策略优化中，强制执行策略注意力与图派生证据之间的一致性。这使得解释更简洁、更可靠、更具因果基础，从而导致既具有可解释性又具有操作意义的决策。

表 II：XAI 引导优化的消融研究。

变体	平均阶段 F1	Conf(e_t)
DeepXplain w/o ℒ_align	0.900	0.79
DeepXplain w/o Conf(e_t)	0.910	0.74
DeepXplain (完整)	0.915	0.86

消融研究

表 II 中的消融结果量化了所提出的 XAI 引导目标中每个组件的贡献。移除对齐损失 ℒ_align 会使平均阶段 F1 从 0.915 降至 0.900，并使解释置信度从 0.86 降至 0.79。这表明，使策略归因与基于图的证据对齐对于确保智能体关注因果相关特征至关重要，从而同时提高鲁棒性和可解释性。另一方面，移除基于置信度的奖励 Conf(e_t) 会导致阶段 F1 下降较小，但解释置信度下降更为显著。这表明置信度项主要通过鼓励智能体偏好由集中且高质量的跨不同攻击场景证据支持的行动，来增强解释的可靠性和一致性。

总体而言，完整的 DeepXplain 模型在防御有效性和解释质量之间实现了最佳权衡。消融研究表明，对齐损失通过强制执行证据一致性来提高决策准确性，而置信度奖励则增强了解释的可靠性。它们的结合使 DeepXplain 能够共同优化性能和可解释性，而不是将解释视为纯粹的事后产物。

结论

本文提出了 DeepXplain，这是 DeepStage 的一个 XAI 引导的扩展，用于对抗多阶段 APT 活动。该框架将基于溯源的图推理、时间阶段推断和深度强化学习与一个统一的解释流程相结合。与事后方法不同，DeepXplain 通过证据对齐和置信度感知的奖励塑造，将解释信号直接融入策略优化。实验结果表明，防御有效性和可解释性均得到提升，实现了更高的阶段性能指标和更可靠的解释。未来的工作将探索人机协同的安全操作以及集成大语言模型以增强决策支持。