news 2026/3/23 4:59:21

临床AI时代的模型记忆风险与隐私测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
临床AI时代的模型记忆风险与隐私测试

MIT科学家研究临床AI时代的记忆风险

一项新研究展示了如何测试人工智能模型,以确保它们不会通过泄露匿名化的患者健康数据而造成伤害。

患者隐私的初衷是什么?希波克拉底誓言,被认为是世界上最早且最广为人知的医学伦理文本之一,写道:“对于我在行医过程中或之外,所见所闻的、不应外传的关乎患者生活之事,我将守口如瓶,视所有此类事情为隐私。”在数据渴求的算法和网络攻击日益增多的时代,隐私变得越来越稀缺,而医学是少数几个保密性仍处于实践核心的领域之一,这使得患者能够信任他们的医生,分享敏感信息。

然而,一篇由某机构研究人员共同撰写的论文,探讨了在去标识化的电子健康记录上训练的人工智能模型如何可能记忆患者特定信息。这项近期在2025年神经信息处理系统大会(NeurIPS)上发表的工作,建议采用一套严格的测试设置,以确保有针对性的提示无法泄露信息,并强调必须在医疗保健背景下评估泄露问题,以确定其是否实质上损害了患者隐私。

基于EHR训练的基础模型通常应该归纳知识以做出更好的预测,这需要借鉴许多患者记录。但在“记忆”现象中,模型会依赖于单一患者记录来生成输出,这可能会侵犯患者隐私。值得注意的是,基础模型已知容易发生数据泄露

“这些高容量模型中的知识可以成为许多群体的资源,但对抗性攻击者可以提示模型提取训练数据中的信息,”该论文的第一作者、某中心博士后Sana Tonekaboni说。考虑到基础模型也可能记忆私人数据的风险,她指出:“这项工作是朝着确保在我们发布模型之前,社区可以采取实际评估步骤迈出的一步。”

为了研究EHR基础模型在医学中可能带来的潜在风险,Tonekaboni联系了某机构的副教授Marzyeh Ghassemi,她是某中心的负责人研究员,也是计算机科学与人工智能实验室的成员。Ghassemi是某机构电气工程与计算机科学系以及医学工程与科学研究所的教职人员,她领导着健康机器学习小组,该小组专注于健康领域的稳健机器学习。

一个恶意行为者需要多少信息才能暴露敏感数据?与泄露信息相关的风险又有哪些?为了评估这一点,研究团队开发了一系列测试,他们希望这些测试能为未来的隐私评估奠定基础。这些测试旨在衡量各种类型的不确定性,并通过评估不同层级的攻击可能性来衡量其对患者的实际风险。

“我们在这里真正试图强调实用性;如果一个攻击者需要知道你记录中一打实验室测试的日期和数值才能提取信息,那么造成伤害的风险就非常小。如果我已经能够访问那种级别的受保护源数据,为什么还需要攻击一个大型基础模型来获取更多信息呢?”Ghassemi说。

随着医疗记录的不可避免的数字化,数据泄露变得更加常见。在过去24个月里,美国卫生与公众服务部记录了747起影响超过500人的健康信息数据泄露事件,其中大多数被归类为黑客/IT事件。

患有罕见疾病的患者尤其脆弱,因为他们很容易被识别出来。“即使是去标识化的数据,也取决于你泄露了关于个人的何种信息,”Tonekaboni说。“一旦你识别出他们,你就会知道更多信息。”

在他们结构化的测试中,研究人员发现,攻击者掌握的关于特定患者的信息越多,模型泄露信息的可能性就越大。他们展示了如何区分模型的归纳情况与患者级别的记忆,以正确评估隐私风险。

论文还强调,有些泄露比其他泄露危害更大。例如,模型泄露患者的年龄或人口统计数据可以被定性为相对良性的泄露,而模型泄露更敏感的信息,如HIV诊断或酗酒,则危害更大。

研究人员指出,患有罕见疾病的患者尤其脆弱,因为他们很容易被识别出来,这可能需要更高级别的保护。“即使是去标识化的数据,实际上也取决于你泄露了关于个人的何种信息,”Tonekaboni说。研究人员计划扩展这项工作,使其更具跨学科性,增加临床医生、隐私专家以及法律专家。

“我们的健康数据之所以是私密的,是有原因的,”Tonekaboni说。“其他人没有理由知道这些信息。”

这项工作得到了某中心的支持,以及来自某基金会、某国家科学基金会、某基金会奖、某研究学者奖和某科学中心AI2050计划的支持。用于准备这项研究的资源部分由某省、通过CIFAR提供的某国政府以及赞助某研究所的公司提供。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/22 9:29:52

基于本地化大模型的知识库搭建

在当今这个信息爆炸的时代,人工智能技术正以前所未有的速度发展。AI对于行业的发展起到了至关重要的作用,本文讲述了一个采用AI行业知识库创建的一个问答助手,验证了AI本地知识库的实际运用效果,这些数据和经验为问答助手今后的更…

作者头像 李华
网站建设 2026/3/15 16:14:12

救命神器2026 TOP8 AI论文写作软件测评:继续教育科研写作全攻略

救命神器2026 TOP8 AI论文写作软件测评:继续教育科研写作全攻略 2026年学术写作工具测评:精准匹配科研需求的高效选择 在继续教育与科研领域,论文写作已成为一项不可或缺的核心技能。然而,面对繁重的科研任务、复杂的格式要求以…

作者头像 李华
网站建设 2026/3/22 3:37:43

通过virtual serial port driver模拟RS232通信的手把手教程

以下是对您提供的技术博文进行 深度润色与结构重构后的专业级技术文章 。全文已彻底去除AI痕迹,采用真实工程师口吻撰写,逻辑更连贯、语言更凝练、教学性更强,并严格遵循您提出的全部优化要求(无模板化标题、无总结段、无参考文…

作者头像 李华
网站建设 2026/3/20 13:51:51

当我们在读写 Socket 时,我们究竟在读写什么?

一场数据如何在网络中“旅行”的深度探索 想象一下,当你在浏览器中输入一个网址并按下回车时,数据就像一场精心编排的芭蕾舞,穿越层层网络,最终到达目的地。而Socket,就是这场舞蹈的舞台。 一、序幕:什么是…

作者头像 李华
网站建设 2026/3/21 0:12:07

信号处理仿真:滤波器设计与仿真_8.信号处理仿真软件介绍

8. 信号处理仿真软件介绍 在信号处理领域,仿真软件是设计和验证滤波器等关键组件的重要工具。本节将介绍几种广泛使用的信号处理仿真软件,包括MATLAB、Python(特别是SciPy和NumPy库)、以及SystemC-AMS。我们将探讨这些软件的特点、…

作者头像 李华
网站建设 2026/3/14 21:36:54

Scilab编译、构建、安装

文章目录 一、官方推荐:优先使用预编译包二、编译 Scilab 所需的第三方依赖(Ubuntu 22.04)✅ 1. 基础构建工具✅ 2. Java(Scilab GUI 和部分模块依赖 Java)✅ 3. 数学与数值库✅ 4. 图形与 GUI✅ 5. 其他核心依赖✅ 6.…

作者头像 李华