英国生物银行健康数据屡现 GitHub
已针对 170 位开发者的 197 个代码仓库发出 110 份通知,最后一份通知发出时间为 2026 年 4 月 17 日。英国生物银行保存着 50 万英国志愿者的基因、健康和生活方式数据,虽已在严格协议下向全球 2 万名研究人员开放数据访问权限,且协议明确禁止研究人员进一步分享数据,但研究人员仍多次误将参与者数据上传到公开的 GitHub 代码仓库。
据《卫报》报道,英国生物银行一直在密切关注这一情况,会直接联系研究人员;若代码仓库未被删除,就会发出下架通知,有时这些研究人员和学生根本未曾从生物银行获取过数据。本追踪器对截至目前发出的 110 份通知进行监测,这些通知针对全球 170 位开发者的 197 个代码仓库,数据来源于 GitHub 的 DMCA 存档。
《卫报》仅依据两份信息(大致出生日期和一次重大手术的日期),就成功在一个泄露的数据集中重新识别出一名志愿者。在为《英国医学杂志》撰写的文章中,我和 Jess Morley 认为,英国生物银行忽视重新识别风险,却建议参与者限制在线分享内容,这其实是在伤害参与者。像生物银行这样的机构必须展现出谦逊的态度,承诺倾听隐私专家的意见,并愿意从中学习。本页面由牛津大学牛津互联网研究所的 Luc Rocher 构建。
英国生物银行试图下架哪些内容
英国生物银行利用版权下架通知(这一机制常用于移除盗版软件和被盗代码),从 GitHub 上移除健康数据。英国没有类似美国数字千年版权法案(DMCA)那样针对隐私泄露的法律,能促使平台迅速采取行动。
从下架通知来看,通常针对的是特定文件,而非整个代码仓库,这可能是为了满足下架通知所需的版权侵权理由。近半数目标文件是 Jupyter 或 R 笔记本,其中可能包含几行数据;四分之一是基因和基因组数据文件(如 PLINK、BOLT - LMM、BGEN),这些文件直接编码了参与者的基因型或关联结果;表格数据集(CSV、TSV、Excel 和序列化的 R 对象)也占了很大比例,可能包含表型或健康记录;其余的则包括分析脚本、文档和压缩存档。交互式图表需要 JavaScript 支持。
下架通知时间线
第一份下架通知于 2025 年 7 月发出。此后,发出通知的节奏较为稳定,截至目前已向 GitHub 发出 110 份请求。有趣的是,在 2026 年 1 月、2 月以及 3 月的大部分时间里,请求停止了。很难相信在这几个月里没有研究人员误上传英国生物银行的数据。直到 3 月底,《卫报》的调查揭露了数据持续泄露以及下架措施的无效性后,通知才重新开始发出。交互式时间线需要 JavaScript 支持。2025 年 7 月至 2026 年 4 月 17 日期间,共发出 110 份通知。
开发者所在地区
收到英国生物银行下架通知的开发者至少来自 14 个国家。实际数量可能更多:在通知中确定的 170 位开发者里,只有 75 人在其 GitHub 个人资料中填写了所在地。大多数开发者似乎来自美国和中国。
交互式地图需要 JavaScript 支持。开发者来自 14 个国家:美国 24 人,中国 21 人,英国 7 人,德国 5 人,中国香港 4 人,澳大利亚 4 人,西班牙 3 人,韩国 1 人,希腊 1 人,卡塔尔 1 人,阿联酋 1 人,瑞士 1 人,印度 1 人,荷兰 1 人。
方法说明
为构建此网页,我使用了 github/dmca 仓库的数据,GitHub 会在该仓库中公开其收到的每份 DMCA 下架通知的全文。当版权持有者要求 GitHub 移除侵权内容时,通知会以 Markdown 文件的形式公开发布在这个仓库中。据《卫报》报道,英国生物银行利用这一流程,请求移除包含(或其认为包含)受其数据访问协议保护的参与者数据的文件或代码仓库。
为识别与英国生物银行相关的通知,我会匹配文件名中包含 “uk - biobank” 的文件(这是 GitHub 命名通知文件的惯例)。以防万一,我还会在其他通知文件的全文中搜索 “UK Biobank” 或 “UKBiobank”(不区分大小写),以捕获使用不同文件名提交的通知,比如代表英国生物银行提交的通知。从每份匹配的通知中,我会提取提交日期(从遵循 GitHub `YYYY - MM - DD - slug.md` 命名惯例的文件名中解析得出),以及通知正文中提到的所有 GitHub 代码仓库 URL。指向 GitHub 自身基础设施的 URL(如 github.com/contact 或 github.com/site)会被排除在外。
对于通知中每个唯一的 GitHub 用户名,我会查询 GitHub REST API(`GET /users/{username}`)以获取用户的公开资料,特别是用户自行填写的所在地字段。这是用户自愿填写的自由文本字符串,可能是城市、国家、大学名称,也可能完全留空。已删除的账户会返回 404 错误,不会进一步纳入统计。
我会手动从原始所在地字符串中确定国家。如果用户的 GitHub 个人资料中未填写所在地,我也会通过查看其 GitHub 个人资料和关联的电子邮件地址域名来确定其所在国家。这个过程存在一定局限性:有些所在地信息不明确(如 “Cambridge” 可能指英国或美国),而且很多用户根本没有提供任何所在地信息。在数据集中的 170 位独特开发者中,只有 75 人的所在地能确定到具体国家。
数据会通过针对 github/dmca 仓库的最新状态重新运行收集脚本进行定期更新。本页面不会对目标代码仓库的内容做出任何断言,包括它们是否包含实际的参与者数据、衍生数据集、分析代码或仅仅是文档。它仅报告英国生物银行提交的公开 DMCA 通知中可见的内容。
延伸阅读
英国生物银行的数据在 GitHub 上泄露,是该机构面临的一系列治理挑战中的最新一起。
2026 年 3 月
英国生物银行首席执行官 Rory Collins 爵士向参与者保证,从 GitHub 下架的数据中不包含姓名或国民健康服务(NHS)号码,并建议参与者今后不要在社交媒体或网站上透露自己的具体信息。《卫报》调查发现,研究人员在分享代码时将英国生物银行参与者的数据上传到了公开的 GitHub 代码仓库。在一名志愿者的同意下,记者仅利用其出生年月和一次重大手术的日期,就成功在一个泄露的数据集中匹配到了该志愿者的记录。
2025 年 4 月
《卫报》刊登了 Rory Collins 爵士撰写的评论文章,为英国生物银行的数据共享模式、在数据访问和隐私保护之间的平衡,以及其对科学发现的贡献进行辩护。同时,《卫报》还报道了英国军情五处(MI5)对海外人员访问英国生物银行敏感参与者数据的担忧。
2024 年 10 月
《卫报》后续报道揭示,Heliospect Genomics 利用英国生物银行的数据为体外受精(IVF)客户预测胚胎特征。对一个极右翼网络的卧底调查显示,该网络声称获取了英国生物银行的数据用于伪科学研究。英国生物银行官方回应驳斥了种族科学相关指控,称名单上的人员从未获得过数据访问权限。
2023 年 11 月
《卫报》揭露英国生物银行在 2020 年至 2023 年间批准保险公司访问数据,这与公开承诺相矛盾。《科学》杂志报道了约 50 万参与者的全基因组序列发布情况,指出四家制药公司(安进、阿斯利康、葛兰素史克和强生)获得了九个月的独家提前访问权。