大语言模型
8月,OpenAI发起了一项红队测试挑战(奖金50万美元),旨在发现gpt-oss-20b模型中的漏洞:
|
不仅如此,Meta为Llama 2雇佣了数百名红队测试员,谷歌也设有内部AI红队。
关键在于,仅评估大语言模型在正确性、忠实性或事实准确性方面的表现,能让你得到一个不错的模型……
……但并非理想的模型。
因为这些指标都无法告诉我们,模型有多容易被利用去做它本不该做的事情。
一个精心设计的提示,即使是最安全的模型,也可能导致个人身份信息泄露、生成有害内容或泄露内部数据。正因如此,每个主要的AI实验室都将红队测试视为模型开发的核心部分。
红队测试:一种安全评估方法,通过模拟攻击者(“红队”)来测试系统或模型的漏洞和防御能力,常用于网络安全和AI领域,以发现潜在的安全风险。
在实践中,要解决这个问题,需要实施最先进的对抗策略,比如提示注入、越狱、响应操纵等。
除了这些策略,你还需要精心设计巧妙的提示,以模拟真实黑客的手法。
这将有助于评估大语言模型在个人身份信息泄露、偏见、有害输出、未经授权的访问以及有害内容生成等方面的响应。
最后,单轮聊天机器人与多轮对话智能体需要不同的测试方法。
例如,单轮测试侧重于即时越狱,而多轮测试则通过对话诱导和信任建立来操纵大语言模型。
设置这一切需要大量工作,但是……
……所有这些实际上都在一个最近流行的开源框架中实现了,它只需几行代码就能执行端到端的大语言模型红队测试。
你可以用它来:
- 检测40多种漏洞(如偏见、错误信息、个人身份信息泄露、对上下文的过度依赖以及有害内容生成)
- 模拟10多种攻击方法(如越狱、提示注入、自动规避、数据提取和响应操纵)
- 无需创建任何数据集即可运行红队测试
- 生成详细的风险评估
- 以及更多功能。
让我们看看它在实践中的应用。
通过安装来开始使用:
补充解释:
- 提示注入:一种攻击技术,通过精心设计的输入提示,诱导大语言模型绕过其安全限制或执行非预期操作。
- 越狱:指利用特定提示或方法,使大语言模型突破其预设的安全或伦理约束,生成通常被禁止的内容。
- 个人身份信息泄露:指模型在响应中无意或有意地暴露敏感的个人数据,如姓名、地址或身份证号,可能导致隐私风险。
- 对话诱导:在多轮对话中,攻击者通过逐步建立信任或引导话题,使模型放松警惕,从而更容易被操纵。
下面是我们想要进行红队测试的LLM应用:
|
为了简化起见,我们这里保持了一个简单的LLM调用,但你可以使用任何LLM应用(如RAG、智能体等)。
因此,我们定义了要检测的漏洞(偏见和毒性)以及检测它们的策略(在本例中是提示注入,这意味着偏见和毒性会被巧妙地注入到提示中):
|
- 偏见(Bias)接受“性别”、“政治”和“宗教”作为类型。
- 毒性(Toxicity)接受“脏话”、“侮辱”、“威胁”和“嘲讽”作为类型。
- 您可以在实例化时指定多个类型。
完成!
运行此脚本(uv run llm_tests.py)会生成一份详细报告,内容涉及DeepTeam生成的提示词、LLM的响应、测试是否通过,以及测试成功/失败的原因:|
您还可以生成risk_assessment对象的摘要,如下所示:
|
最后,您可以通过在Confident AI仪表板中记录所有内容来进一步评估风险报告:
|
该框架还实现了来自最新研究的所有最先进的红队测试技术。
一旦你发现了漏洞,DeepTeam还提供了防护栏,以防止在生产环境中出现问题。
最后,这种设置不需要任何数据集,因为对抗性攻击是基于指定的漏洞在运行时动态模拟的。
你可以在[链接]上查看完整实现,并亲自尝试!
但无论你使用哪种框架,核心洞见都适用:
LLM安全是一个红队测试问题,而不是一个基准测试问题。
你需要从一开始就像攻击者一样思考。
👉 大家还见过哪些红队测试LLM应用的方法?
感谢阅读!
🔥【AI与代码前沿基地】🚀 每日更新!助你抢占技术先机!
🌟 你是否:
❌ 苦恼AI技术更新太快,跟不上核心概念?
❌ 代码实操一学就会,一写就废?
❌ 想获取行业前瞻洞察,却找不到深度解析?
✅ 在这里,你将获得:
▷ 系统性AI知识库:机器学习→深度学习→大模型,零基础到进阶
▷ 最新技术速递:紧跟ChatGPT、Deepseek等全球AI突破,附实战代码
▷ 开发者工具箱:Python案例拆解+自动化实操,拒绝纸上谈兵
▷ AI解决方案:面向您的场景,端到端搭建AI解决方案
📌 点击右上角“关注”✅小木块lambda,快人一步掌握未来!
#人工智能 #编程实战 #科技趋势 #干货分享
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。