news 2026/6/21 16:58:13

为AI提供一副公平的脸谱:索尼AI带来更为公正的AI视觉新标杆

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
为AI提供一副公平的脸谱:索尼AI带来更为公正的AI视觉新标杆

来源:ScienceAI 本文约2000字,建议阅读5分钟 索尼 AI 推出了公平的以人为本的图像基准 FHIBE,可作为许多以人为本的计算机视觉任务的公平性评估数据集,包括姿态估计、人员分割、人脸检测和验证,以及视觉问答。

过去十多年里,AI 在图像识别、面部识别、姿态估计等领域飞速发展。从自动驾驶、智能监控,到社交媒体滤镜、增强现实,视觉 AI 几乎无处不在。但与此同时,人们也越来越意识到一个问题:许多视觉 AI 模型,在多样性等方面缺乏深度,并且持续传递着偏见。

这些数据集损害了 AI 模型的公平性和准确性,并剥夺了利益相关者的权益。为此,索尼 AI 推出了公平的以人为本的图像基准 FHIBE,可作为许多以人为本的计算机视觉任务的公平性评估数据集,包括姿态估计、人员分割、人脸检测和验证,以及视觉问答。

相关研究内容,以「Fair human-centric image dataset for ethical AI benchmarking」为题,发布在《Nature》。

论文链接:https://www.nature.com/articles/s41586-025-09716-2

设计中的考量

传统多数视觉数据集来源于网络爬虫和未经授权的图像采集,往往缺乏:

  • 数据主体同意与授权

  • 人口与地理多样性

  • 详尽结构化标签(肤色、发色、年龄、性别、自我认同等)

  • 环境 / 拍摄条件 / 器材 /背景 /姿态 /遮挡等现实复杂因素

这些不足不仅违背伦理,更使得模型对多数人群的表现不确定、容易引入偏见。更糟的是,在某些任务(如视觉问答、姿态估计、人像分割)上,缺乏适合的大规模公开基准集,导致开发者无法系统检测或纠正偏差。

故而,评估模型和减轻偏见对于伦理人工智能的发展至关重要。

索尼 AI 所提出的 FHIBE 数据集来自于 1,711 名主要受试者,包含 10,318 张共计 1,981 个独特个体的图像,每个主要主题平均有六张图像。这个数据集还具备自我报告的姿态和互动标注,囊括了各种身体、头部、互动姿态,与丰富的人体外观特征。

图示:FHIBE 中所有图像都提供了关于图像主体、工具和环境的标注。

此外,FHIBE 包含两个衍生人脸数据集,这两个数据集也同样包含所有标注。

与现有数据集相比,FHIBE 作为唯一一个为人工智能评估和偏差缓解而收集的数据集,具有坚实的同意基础;相比其他基于同意的数据集,在诊断人工智能中的偏见方面具有更大的实用性。

此外,FHIBE 在同意驱动的数据集中因其详细且自我报告的人口统计标签而脱颖而出,这些标签能够支持在人口统计属性复杂交叉点的模型性能研究。

评估与发现

FHIBE 的多样化和全面的标注在公平性评估中提供了广度和深度,能够评估模型在一系列人口统计属性及其交叉点上的表现。

通过在对多个流行模型和不同任务(比如姿态估计、人脸检测等)进行系统测试,研究团队很快发现了一些问题,基于多个敏感属性(包括代词、年龄、血统和肤色)的交叉群体在表现上存在最大差异。

在年龄上,年轻人,尤其是浅肤色的会更频繁地出现在表现较好的群体中;老年人,尤其是肤色较深的,则与其相反。

图示:CLIP 在 FHIBE 上的预测偏见。

对于一些模型甚至存在意外偏差来源,如:面部识别模型对“光线较差 + 拍摄距离远 + 面部遮挡 + 特定发型 /面部毛发”的组合极为敏感,这些情况在传统数据库中很少遇到,也因此从未被系统测试过。

此外,在评估使用不同观测数据集的模型时,常常会出现相互冲突的偏倚趋势。除了上述的肤色、发色影响之外,动作姿态的不同也会导致偏差出现。这些发现强调了解决模型错误相关来源的重要性,并有助于指导开发者优化模型。

而对于两个受试模型 CLIP 与 BLIP-2,前者更倾向于默认主体为男性,对不合刻板印象的场景存在更多偏见;后者则更倾向于默认为女性,且对负面提示会更具有性别与肤色偏见。利用 FHIBE 会更轻易地发现这些未被记录的偏差,这些观察凸显了这些模型中持续存在的偏见,并强调了采取偏见缓解策略的必要性。

让 AI 看清世界

FHIBE 标志着更负责任地让 AI 发展的一个转折点,其中的一项关键贡献就是落实了许多仅在倡议中被反复呼吁的原则,为未来的伦理数据收集工作铺平了道路。

创建一个以人为本的数据集本身就具有挑战性,这其中还需要考虑到数据贡献者与实验参与者所需要付出的成本。总体来看,考虑到训练最先进AI模型所需的大量数据,协商、多元且合理报酬的数据收集成本依然很高。

但这不是放弃工作的原因。实验团队希望凭借 FHIBE 整合全面且经共识来源的图像和标注,为 AI 系统建立负责任的数据集新标准。通过实施负责任的数据实践,并使计算机视觉社区能够测试其模型的偏见,FHIBE 可以帮助推动更具包容性和可信赖的 AI 系统的发展。

编辑:文婧

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 7:55:44

Qwen3-VL-8B能识别手写文字吗?实测图文理解能力

Qwen3-VL-8B能识别手写文字吗?实测图文理解能力 在智能家居设备日益复杂的今天,确保无线连接的稳定性已成为一大设计挑战。然而,当我们把目光转向更广泛的AI应用场景时,另一个难题悄然浮现:如何让机器真正“读懂”人类…

作者头像 李华
网站建设 2026/6/21 12:20:21

2025美妆行业PLM选型突围指南:AI智研与全域合规铸就竞争力

在颜值经济升级、消费者个性化需求爆发,以及2025年化妆品完整版安全评估制度全面落地的双重驱动下,美妆行业正面临研发创新与合规安全的双重考验。2025年上半年行业监测数据显示,国内美妆企业定制化配方订单量同比增长38%,新品研发…

作者头像 李华
网站建设 2026/6/21 13:19:57

Qwen3-VL深度评测:开源多模态模型的三大技术突破与应用实践

Qwen3-VL深度评测:开源多模态模型的三大技术突破与应用实践 【免费下载链接】Qwen3-VL-30B-A3B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-30B-A3B-Thinking 在人工智能快速发展的当下,多模态大模型正成为技术竞争的…

作者头像 李华
网站建设 2026/6/15 7:32:14

陶瓷行业导航网站:精准匹配瓷砖供应商,3步降低20%采购成本

陶瓷行业导航网站:精准匹配瓷砖供应商,3步降低20%采购成本在竞争日益激烈的建筑与装饰行业,采购成本的控制已成为企业提升利润空间的关键环节。对于瓷砖这类大宗、高频的建材采购而言,如何在海量供应商中快速、精准地找到最优合作…

作者头像 李华
网站建设 2026/6/19 18:05:13

景德镇陶瓷技术资讯:最新技术前沿 - 助力陶瓷从业者发展

景德镇陶瓷技术资讯:最新技术前沿 - 助力陶瓷从业者发展引言景德镇,作为中国陶瓷的瑰宝之地,自古以来便以其精湛的制瓷技艺闻名于世。随着科技的不断进步,现代陶瓷技术也在不断发展,为陶瓷从业者带来了前所未有的机遇与…

作者头像 李华
网站建设 2026/6/16 7:34:34

聚焦数字金融创新——“2025数字银行·臻选之光”正式公布

12月4日下午,“2025企业家博鳌论坛-数字金融安全发展大会暨数字金融联合宣传年年度活动”在海南博鳌举行,大会由新华网主办,以“数聚新势 智汇金融”为主题,围绕金融科技突破、数字安全、数字金融创新、金融高质量发展等核心命题展…

作者头像 李华