点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
在大模型逐渐普及的今天,我们正见证一场开发范式的革命:从零开始写代码的传统应用正在逐渐被以提示词和插件为核心的大语言模型应用(LLM Apps)替代。但是,我们真的已经准备好迎接拥有大模型的世界了么?
本文中,我们系统性地研究了大语言模型应用在应用的实际风险。我们首次量化了LLM应用的开发质量,并全面地评估了LLM应用边界风险,证实了质量较差的应用设计可能为大模型滥用提供无穷的入口,“We can do anything by using any application”。本文录用于国际网络安全顶级学术会议NDSS 2026。
原文标题:Beyond Jailbreak: Unveiling Risks in LLM Applications Arising from Blurred Capability Boundaries
原文作者:Yunyi Zhang, Shibo Cui, Baojun Liu, Jingkai Yu, Min Zhang, Fan Shi, Han Zheng
录用会议:Network and Distributed System Security (NDSS) Symposium 2026
论文链接:https://yunyizhang.net/assets/pdfs/llmapp-ndss-26.pdf
1
“任意门”效应
“当一个应用的能力过大而缺乏限制
用户的行为也将无法被控制”
这里展示了一个实际业务的中案例。2025年初,tiktok 正处于风口浪尖之上,大量美国用户大量涌入英文版小红书。为应对多语言用户的挑战,小红书迅速上线了基于LLM的翻译能力,并取得了很好的效果。虽然基于LLM 的翻译缓解了小红书多国别用户的使用问题,但是该功能很快被网友滥用,违背了该功能原本的任务目标,被用于执行任意的任务。
图 1 小红书翻译功能被滥用
2
LLM 应用能力空间及风险
在新的开发范式下,应用的内涵已经发生变化。开发者已经不再需要针对目标任务开发特定的功能,而是利用大模型的能力来完成目标任务。大模型已经在很多任务上表现出了非常强大的能力,开发者需要从中圈定目标任务所需的能力,同时限制其他能力,进而为用户提供一个可以解决目标任务的“ LLM 应用”。
图 2 能力空间示意图
进一步地,本文将 LLM 应用能力空间边界风险概括为下面3种场景。
能力降级。能力降级的目的是降低 LLM 应用在其主要任务上的性能。如图3a,在这种情况下应用可能产生不正确的响应。
能力升级。能力升级的目标是扩展应用原本预期的能力空间,使其能够执行额外的任务。但是,它并没有破坏应用的道德约束,不能任意执行恶意功能。如图3b所示,App1 的功能被扩展到包括 App2 的功能。
能力越狱。能力越狱的目标是同时绕过应用的预期功能限制和底层基础 LLM 的安全约束,从而使应用程序能够执行任意任务,包括恶意任务,如图3c所示。
图 3 能力边界风险示意图
我们可以将基础 LLM 比作哆啦A梦中的“任意门”。理想情况下,应用开发者希望这扇门被固定在一个特定的“房间”(如:翻译工具或天气查询)。 能力边界风险的本质在于:由于应用的提示词设计缺乏足够的安全考虑。用户只需要通过特定的操作,就能跨越当前的房间,到达大模型支持的任何其他功能领域。
3
LLM 应用能力风险评估
为了量化评估当前 LLM 应用的能力边界风险,本文设计了一个 LLM 应用评估框架 LLMApp-Eval。
图 4 LLMApp-Eval框架图
1. LLM 应用收集及分类
本文收集了来自4个LLM 应用平台(包括GPTs store,Coze,AgentBuilder 和 Poe)的807207个应用程序的元数据。同时,我们还收集了 agentbulider 上部分应用公开的 prompt。然后,借鉴工作[1]使用NLI-based Zero Shot Classification 模型对应用进行分类。
2. Prompt 设计质量量化评估
我们结合 Anthropic [2] 和 Google [3] 白皮书的agent设计指南,设计了4个维度的指标来量化 LLM 应用 prompt 的质量,包括目标、步骤、能力和限制。
目标(TScore):关注 prompt 中应用的目标介绍的清晰度。
步骤(PScore):关注是否具有引导性的步骤。
能力(CaScore):关注能力描述的详细程度。
限制(CoScore):关注明确的能力限制说明。
最终对4个维度的分数进行加权组合:
3. 能力边界测试
为了全面地评估现实 LLM 应用所面临的风险,我们构造了三类测试样例集合分别测试三类安全风险。
(1)能力降级。我们通过评估间接提示注入如何影响 LLM 在同一任务上的性能,来间接的评估能力降级风险。
图 5 Llama-3.1-8B上的边界案例情况示例。
通过嵌入精心制作的对抗句子(红色),一份无法通过评估的简历可以成功地逃避LLM助手的筛选。该场景模拟了企业LLM招聘系统。
(2)能力升级。我们基于应用类型的识别结果构建了一个跨类别的测试用例集。本文假设是如果A类应用程序(App 1)可以执行B类应用程序(App 2)的任务,那么 App 1 则面临能力升级的风险。具体主要构造了下面三种类型的测试样例。
默认用例。我们从相同类型应用提供的默认问题中选取部分问题作为默认测试用例。
生成用例。对于每种类型,我们随机选择5个应用程序,创建它们的能力概要,并使用gpt - 4o为其生成5个测试用例。
通用用例。为了测试应用的通用性能,我们还加入了一组通用任务用例,例如,“一年有多少个季节?”。
(3)能力越狱。我们首先构建一个包含各种恶意问题类型的测试用例集。借用腾讯朱雀实验室开源的AI红队评估平台 AI-Infra-Guard (A.I.G) [8] 作为攻击编排引擎, 我们复现了包括 Gptfuzzer、ArtPrompt 在内的多项典型越狱技术 [4-7],成功生成了大量高质量的对抗性测试用例。
4
LLM 应用部署与开发现状
1. 跨平台 LLM 应用的实现情况
(1)我们发现尽管不同平台的应用程序数量不同,但应用程序类型的分布非常相似,每个类别的百分比的平均绝对偏差小于2%。
(2)超级开发者在 LLM 应用程序生态系统中扮演着至关重要的角色,但是这使得低质量、低使用率的应用程序占据了当前 LLM 应用程序生态系统的很大一部分,某些开发者发布了大量同质化的应用。
(3)平台提供的默认插件可能存在潜在的安全风险。例如,在 AgentBuilder 上,一款离婚咨询应用程序配置了百度 Map 插件。
图 6 GPTs上的超级开发者
2. LLM应用开发质量令人担忧
(1)我们的评估结果显示,48.62%的应用得分 AppScore 低于50,表明当前的 prompt 在我们4个维度的评价指标上表现都不好。同时,大部分的开发者缺少能力限制的意识。应用程序在限制(CoScore)这个维度呈现出两极分化的趋势。43.41%的应用程序没有添加任何功能约束,对于添加了限制的应用中有20%的得分低于60分。
(2)其次,为了确定 prompt 的质量与应用风险的关系,我们使用优化后的 prompt 进行了测试。测试结果显示,使用优化 prompt 的应用表现出对能力空间外任务更多的拒绝,执行的能力外任务数量降低了5.3%-80%。比如,在 AgentBuilder 上,没有增加约束之前,应用可执行15/21种不同类型的任务,而增加约束后,该数量降低到了3。
3. LLM应用风险评估
(1)能力降级评估:我们使用2790对边界测试用例评估了6个开源 LLM。结果表明,大多数模型受到插入的误导信息的影响。Mistral 受影响最大,有993例出现错误反应,而 LLaMA 表现最好,但仍有668例出现错误响应。如果应用基于这样的模型来构建,那么它将可能遭受能力降级风险。
表 1 LLM的能力降级实验
(2)能力升级评估
在测试199个流行应用中,144个(72.36%)受能力升级影响,每个应用都可以完成15类以上不同的类型的任务。
图 7 应用执行的任务类型数量分布图
能力升级的风险在不同的平台上差异很大。与其他三个平台相比,GPTs 明显更容易受到能力升级的影响。从不受影响的应用来看,固定的工作流和多模态输入/输出需求这些类似于传统应用中输入输出限制成为影响能力升级的关键因素。
图 8 四个平台LLM应用的能力升级实验结果绿色表示应用程序的原始类型。橙色的强度表示应用程序完成的来自该类型的测试用例的比例;颜色越深,比例越高。
不同平台对基座 LLM 的支持和插件配置的差异性也是影响平台上应用遭受能力升级风险的关键原因。GPTs 的默认配置包括 Web搜索和DALL·E图像生成,使其应用具有出色的多模式输入/输出和实时信息检索能力,也为能力升级提供了可能。相反,Coze 和 AgentBuilder 则缺少这些能力的支持,或者需要特定的配置。
(3)能力越狱评估:178个(89.45%)应用程序易受能力越狱的影响,至少完成了一个恶意任务。并且,有17个应用程序在没有使用对抗技术的情况下直接执行了恶意任务。
图 9 不同平台流行度前50应用的能力越狱实验结果
5
总结
本文系统性地揭示了 LLM 应用中因能力边界模糊而引发的深层安全风险,指出在底层模型的全能“任意门”效应为 LLM 应用引入了新的攻击向量。我们对全球四大主流平台的80余万个应用进行了跨平台分析结果证实了大量热门应用暴露于能力提权或能力降级的威胁之下。研究强调,提示词设计的低质量及平台默认插件的配置是导致应用沦为无限制“任意门”的主要诱因,而强化提示词约束质量和构建固定工作流是实现安全隔离、降低滥用风险的关键路径。
作者简介
张允义,清华大学水木学者博士后,合作导师为刘保君副教授。主要研究方向包括网络基础设施安全、网络测量、网络犯罪和大模型应用安全与隐私,在国际顶级会议及期刊 USENIX Security、ACM CCS、ACM IMC、NDSS、IEEE TDSC 等发表学术论文十余篇。
参考文献
[1] C. Yan, R. Ren, M. H. Meng, L. Wan, T. Y. Ooi, and G. Bai, “Exploring chatgpt app ecosystem: Distribution, deployment and security,” in Proceedings of the 39th IEEE/ACM International Conference on Automated Software Engineering, ASE 2024, Sacramento, CA, USA, October 27 - November 1, 2024, ACM, 2024, pp. 1370–1382.
[2] Anthropic, “Building effective agents,” https://www.anthropic.com/rese arch/building-effective-agents, 2024.
[3] Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic, “AI Agent,” https://drive.google.com/file/d/1oEjiRCTbd54aSdB eEe3UShxLBW K9xkt/view?pli=1, 2024.
[4] Y. Zeng, H. Lin, J. Zhang, D. Yang, R. Jia, and W. Shi, “How johnny can persuade llms to jailbreak them: Rethinking persuasion to challenge AI safety by humanizing llms,” in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2024, pp. 14 322–14 350.
[5] F. Jiang, Z. Xu, L. Niu, Z. Xiang, B. Ramasubramanian, B. Li, and R. Poovendran, “Artprompt: ASCII art-based jailbreak attacks against aligned llms,” in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2024, pp. 15 157–15 173.
[6] P. Chao, A. Robey, E. Dobriban, H. Hassani, G. J. Pappas, and E. Wong, “Jailbreaking black box large language models in twenty queries,” CoRR, vol. abs/2310.08419, 2023.
[7] J. Yu, X. Lin, Z. Yu, and X. Xing, “GPTFUZZER: red teaming large language models with auto-generated jailbreak prompts,” CoRR, vol. abs/2309.10253, 2023.
[8] AI-Infra-Guard. https://github.com/Tencent/AI-Infra-Guard.
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言