news 2026/6/9 6:16:02

论文阅读:ACL 2025 LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:ACL 2025 LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2506.10022

https://www.doubao.com/chat/33191546565944578

论文翻译:
https://whiffe.github.io/Paper_Translation/Attack/paper/LLMs%20%E9%99%B7%E5%85%A5%E7%BA%B7%E4%BA%89%EF%BC%9A%E6%81%B6%E6%84%8F%E8%BD%AF%E4%BB%B6%E8%AF%B7%E6%B1%82%E4%B8%8E%E8%B6%8A%E7%8B%B1%E6%8C%91%E6%88%98%20—%20LLMs%20Caught%20in%20the%20Crossfire_%20Malware%20Requests%20and%20Jailbreak%20Challenges.html

速览

这篇文档主要研究了大语言模型(比如ChatGPT、Llama这些能生成文字或代码的AI)在面对“恶意请求”时的安全性——简单说就是,坏人会不会用特殊手段让AI生成恶意代码(比如木马、盗号程序),以及现在的AI能不能防住这种攻击。

为了做这个研究,研究者先搞了个叫“MalwareBench”的测试数据集。这个数据集里有3520个“带陷阱的恶意请求”,是从320个真实的“想生成恶意代码的需求”改出来的,还用到了11种让AI“破防”的手段(比如把恶意关键词换成看似无害的词、用冷门语言提要求),覆盖了6大类恶意行为(比如让代码偷偷下载病毒、偷用户信息、搞瘫痪系统)。

然后他们用这个数据集测试了29个主流AI(既有ChatGPT、Claude这种闭源的,也有Llama、CodeLlama这种开源的,参数从几百M到几百B都有),看这些AI会不会拒绝生成恶意代码。结果发现几个关键问题:

  1. 现在的AI防恶意请求的能力不算强:平均下来,AI只拒绝了60.93%的恶意请求;如果用了那11种“破防手段”,拒绝率直接掉到39.92%——快一半的恶意请求都被AI满足了。

  2. AI的表现和“请求细节”“模型大小”有关系:如果恶意请求写得很具体(比如“在Windows系统下写个偷键盘输入的代码”),AI反而更容易拒绝;而参数大的AI不一定更安全,有些大模型反而会生成看似正常、实则藏了恶意逻辑的代码。

  3. 不同“破防手段”效果不一样:最管用的是“把恶意词换无害词”(比如把“偷信息”说成“记录用户操作”),AI几乎防不住;而像“用代码片段插在请求里”这种手段,部分AI能防住。

  4. 少数AI表现还不错:比如闭源的OpenAI-o1、开源的CodeLlama-70B,拒绝恶意请求的比例能到75%以上,这俩主要是训练时加了更多“安全对齐”的内容(比如用人类反馈教AI识别恶意请求)。

最后研究者也说,他们的测试还有不足(比如只用了一种AI生成“陷阱请求”、没覆盖所有恶意场景),但希望这个研究能帮大家重视AI的代码安全问题,后续把AI的“防恶意生成”能力做得更好。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 11:36:12

Qwen-Image-Lightning:颠覆性突破重构文生图效率边界

Qwen-Image-Lightning:颠覆性突破重构文生图效率边界 【免费下载链接】Qwen-Image-Lightning 项目地址: https://ai.gitcode.com/hf_mirrors/lightx2v/Qwen-Image-Lightning 在2025年生成式AI快速发展的背景下,文生图技术正面临效率与质量的双重…

作者头像 李华
网站建设 2026/6/7 8:54:33

基于AI伪造验证机制的社交平台钓鱼攻击分析与防御

摘要近年来,网络钓鱼攻击在技术手段与社会工程策略上持续演进。本文聚焦于两类高度关联且具有代表性的新型钓鱼范式:一是针对Facebook等主流社交平台的大规模凭证窃取活动,二是利用生成式人工智能(AI)工具伪造CAPTCHA验…

作者头像 李华
网站建设 2026/6/9 0:07:15

多任务处理对钓鱼识别能力的影响机制与防御策略研究

摘要随着远程办公与即时通讯工具的普及,职场用户在处理电子邮件时普遍处于多任务并行状态。现有网络安全研究多基于“专注认知”假设,忽视了真实工作环境中注意力碎片化对安全决策的实质性影响。本文基于纽约州立大学奥尔巴尼分校于2025年发表的实证研究…

作者头像 李华
网站建设 2026/6/9 17:23:14

终极指南:构建企业级营销混合模型的完整替代方案

终极指南:构建企业级营销混合模型的完整替代方案 【免费下载链接】meridian Meridian is an MMM framework that enables advertisers to set up and run their own in-house models. 项目地址: https://gitcode.com/GitHub_Trending/meri/meridian 还在为营…

作者头像 李华
网站建设 2026/6/8 16:16:00

springboot基于vue的东山健身俱乐部会员管理系统的设计与实现_v937083d

目录已开发项目效果实现截图开发技术系统开发工具:核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式&…

作者头像 李华