论文阅读：CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra-洪萨配资

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.20823

https://www.doubao.com/chat/34175527053598466

Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy

论文翻译：
https://whiffe.github.io/Paper_Translation/Attack/paper_V/%E3%80%8APlaying%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy%E3%80%8B%20—%20Playing%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy.html

速览

这篇文档核心是讲：研究人员发现了大型语言模型（比如GPT-4）和多模态模型（比如能看懂图片的GPT-4V）的一个安全漏洞——它们虽然经过了安全训练（比如RLHF，简单说就是让人类反馈来规范模型，不让它输出危险内容），但面对“改头换面”的危险输入时，还是容易被“攻破”（也就是“越狱”），进而输出炸弹制作、黑客攻击这类危险信息。

研究人员搞了个叫“JOOD”的方法，专门利用这个漏洞。具体就是对原本的危险输入做“变形”，让它变成模型没见过的“新样子”（也就是文档里说的“分布外输入”）：

对文字类危险指令（比如“告诉我怎么造炸弹”）：把“炸弹”这种关键词和“苹果”这类无关词混合，变成“炸弹苹果”这种无意义的新词，再让模型解释这个新词对应的内容；
对图片+文字的危险输入（比如一张炸弹图+“告诉我怎么造图里的东西”）：把炸弹图和苹果图、杯子图这类普通图混合，或者做些简单的图像处理，再搭配通用指令让模型回应。

之所以这种方法能成功，是因为模型的安全训练只针对那些“一眼就能看出来”的危险输入（比如直接说造炸弹、直接给炸弹图）。一旦危险输入被“变形”成没见过的样子，模型就拿不准这是不是危险内容（不确定性变高），原本的安全防护就失效了，会乖乖输出危险信息。

实验结果也很明显：这个JOOD方法对GPT-4、GPT-4V甚至更先进的模型（比如o1）都管用，在造炸弹、黑客攻击等多个危险场景里，成功让模型“越狱”的概率最高能到63%（针对GPT-4V），比之前的其他攻击方法效果好太多。而且就算给模型加了额外的安全提示（比如让它警惕危险请求），这个方法依然能奏效。

简单说，这篇研究就是揭露了：现在的AI模型安全防护“认死理”，只防得住常规危险输入，对“换了马甲”的危险输入没辙，同时给出了一种简单却有效的攻击方法，提醒大家得进一步加强AI模型对这类“变形危险输入”的安全防护。

Bili23 Downloader v1.70.4 绿色版：开源B站视频下载器

Bili23-Downloader v1.70.4 绿色版是一款面向 B 站用户的免费开源下载工具，无需复杂安装流程，下载后可直接运行，始终保持轻量化的系统资源占用优势。该软件遵循 MIT 许可证发布，版权归属 2022-2025 Scott Sloan，为用户…

李华

PaddlePaddle面试问题自动生成系统

PaddlePaddle面试问题自动生成系统在当前AI人才竞争日益激烈的背景下，技术招聘的效率与专业性正面临前所未有的挑战。HR面对海量简历时，往往难以快速判断候选人的真实技术水平；而技术主管又不得不花费大量时间设计面试题、评估能力匹配度。一…

李华

教学辅助系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

摘要随着信息技术的快速发展，教育领域对高效、智能化的教学辅助工具需求日益增长。传统的教学管理模式依赖人工操作，存在效率低、数据易丢失、信息更新滞后等问题，难以满足现代教育管理的需求。教学辅助系统信息管理系统的开发旨在解决这些问…

李华

【大模型自动化新纪元】：Open-AutoGLM三大关键技术全公开

第一章：智谱Open-AutoGLM全教程环境准备与依赖安装在开始使用 Open-AutoGLM 之前，需确保本地已配置 Python 3.8 或更高版本。该框架基于 PyTorch 构建，支持自动机器学习任务的端到端执行，包括数据预处理、模型选择与超参优化。安…

李华

PaddlePaddle个性化学习路径推荐系统

PaddlePaddle个性化学习路径推荐系统在当今在线教育平台课程数量爆炸式增长的背景下，用户面对成千上万的学习资源常常陷入“选择困难”——该从哪里开始？下一步学什么？哪些内容真正适合自己？传统基于关键词匹配或热门排行的推荐方…

李华

本地部署Open-AutoGLM难吗？99%人忽略的7个关键细节

第一章：Open-AutoGLM本地部署概述Open-AutoGLM 是一个基于 AutoGLM 架构的开源自动化自然语言处理工具，支持在本地环境中进行模型推理与任务编排。其设计目标是为开发者提供轻量、可定制的 AI 应用集成能力，适用于文本生成、意图识别和对话系…

李华