news 2026/5/13 17:25:46

【论文精读】Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文精读】Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

标题:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
NeurIPS 2025 Best Paper

一、研究背景:为啥要做这个研究?

咱们平时用 AI 写东西、 brainstorm 时,有没有觉得不同 AI 给的答案越来越像?比如让不同模型写 “时间的隐喻”,大多离不开 “河流”“织工”—— 这就是论文要解决的核心问题:大语言模型(LMs)在开放式任务(没有唯一答案的任务,比如写诗歌、想点子)中,为啥总爱 “抄作业”?长期看,大家天天看同质化的 AI 输出,可能会限制人类的思维多样性,但之前没人系统研究过这个问题,也没有靠谱的数据集和评估方法。

研究要回答三个关键问题

  • 人们平时真的会问 AI 哪些开放式问题?
  • 不同 AI 的回答是不是真的高度相似(也就是 “人工蜂群思维”)?
  • AI 自己评分的结果,和我们人类觉得 “好” 的标准一致吗?

二、核心贡献:带来了啥新东西?

  • INFINITY-CHAT 数据集:从真实用户对话中筛选出 2.6 万个开放式查询(比如 “写一个电动车的笑话”“给马克思理论论文想新选题”),覆盖 6 大类 17 个子类,还配了 3.125 万条人类标注 —— 每个回答都有 25 个人打分或选偏好,保证数据靠谱。
  • 首个开放式查询分类体系:比如 “创意内容生成”(占 58%,最多)、“头脑风暴”(15.2%)、“假设场景”(22.2%)等,还发现了 314 个新类别(比如 “文化分析”“伦理问题”)。
  • 首次证实 “人工蜂群思维效应”:量化了 AI 的两种 “同质化毛病”,不是偶尔相似,是普遍现象。
  • 发现 AI 评分和人类偏好脱节:AI 觉得 “好” 的答案,我们人类可能有不同看法,尤其是多个答案质量差不多时。

三、关键发现:最有意思的结论

(一)人工蜂群思维:AI 们集体 “偷懒”

  • 同一模型自己重复(模型内重复):就算让 AI 用 “高随机性模式”(top-p=0.9,temperature=1.0)生成答案,79% 的回答两两相似度超过 0.8(相当于说 “差不多是一个意思”);就算换了增强多样性的模式(min-p 解码),还有 61.2% 的回答相似度超 0.8。比如让 GPT-4o 反复写 “花生的双关语”,几次输出都离不开 “cashew(腰果 / 抓住你)” 的梗。
  • 不同模型互相 “抄作业”(模型间同质性):70 多个开源 / 闭源模型(比如 GPT-4o、Llama-3、文心一言)的回答,语义相似度高达 71%-82%。有的甚至逐字重复,比如多个模型都输出 “Empower Your Journey: Unlock Success, Build Wealth, Transform Yourself”(赋能你的旅程:解锁成功、积累财富、改变自我);抽象概念也趋同,写 “时间的隐喻”,全集中在 “时间是河流”(主流)和 “时间是织工”(少数)两大类,没有其他新鲜比喻。

(二)AI 评分不靠谱:和人类想法差得远

  • 答案质量差不多时:比如两个回答都是 “合格的托福 vs 雅思对比”,AI 打分会差很多,但人类觉得 “都还行”,AI 没法区分 “同样好的不同答案”。
  • 人类有分歧时:比如有人觉得 “夕阳的诗 A 好”,有人觉得 “诗 B 好”,AI 评分会固执地选一个,完全忽略人类偏好的多样性。

(三)数据集里的小发现

  • 大家用 AI 最多的是 “创意内容生成”(58%),比如写诗歌、编故事;其次是 “替代写作体裁”(38.5%),比如写邮件、剧本。
  • 34.66% 的查询能有 20 种以上合理答案,比如 “人生的意义是什么”,但 AI 只给少数几种回答。

四、实验设计:怎么证明这些结论的?

  • 模型范围:70 多个 AI 模型,重点分析 25 个(比如 GPT-4o、Llama-3.1、文心一言 3.0 等)。
  • 生成模式:两种解码方式对比 —— 普通高随机性模式和增强多样性的 min-p 模式。
  • 评估方法:用 AI 的语义嵌入算相似度(判断是不是一个意思),用 “香农熵” 算人类偏好分歧(熵越高,人类看法越不一样),用相关性分析 AI 评分和人类评分的一致性。
  • 人类标注:2296 个英语母语标注者, approval rate 99%+,保证打分靠谱。

五、研究意义:这事儿重要在哪?

  • 学术上:第一次系统证明了 AI 开放式生成的同质化问题,给后续研究提供了数据集和评估方法。
  • 实际应用上:提醒我们 —— 以后用 AI 辅助创意、学习时,别完全依赖它,不然可能越用思维越单一;也给 AI 开发者提了醒,得让 AI 更 “有个性”,而不是集体 “抄作业”,这样才能真正帮人类发挥创造力。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:08:09

定向广播技术重塑高速公路管理新范式:从“大喇叭”到“声波聚焦”的时代跨越

定向广播扬声器凭借强指向性、高声压穿透、低环境干扰等核心优势,在高速公路的应急处置、安全预警、交通疏导等场景中发挥关键作用,可精准向目标区域 / 车辆传递信息,提升通行安全与管理效率。核心应用场景与价值应急事件快速处置事故 / 故障…

作者头像 李华
网站建设 2026/5/12 3:12:34

LangFlow JSON解析器节点应用实例:提取结构化结果

LangFlow JSON解析器节点应用实例:提取结构化结果 在构建基于大语言模型(LLM)的应用时,一个常见但棘手的问题浮出水面:如何让AI“说人话”的同时,还能“写机器能读的格式”? 设想这样一个场景&a…

作者头像 李华
网站建设 2026/5/12 3:13:35

基于IAR安装的实时控制程序部署:项目应用

从零开始搭建高效嵌入式开发环境:IAR实战部署与实时控制工程全解析 你有没有遇到过这样的场景?项目紧急上线,代码写完了,却卡在“编译失败”上——提示找不到芯片定义、链接脚本报错、调试器连不上目标板……最后排查半天&#x…

作者头像 李华
网站建设 2026/5/13 13:02:36

Arduino创意作品全面讲解:基于Uno的电子骰子

用Arduino Uno打造一个会“摇”的电子骰子:从零开始的完整实践你有没有想过,只用几颗LED、一个按钮和一块Arduino Uno,就能做出一个能“掷”出随机点数的电子骰子?听起来像玩具,但背后却藏着嵌入式开发的核心逻辑——输…

作者头像 李华
网站建设 2026/5/12 7:45:22

LangFlow故事接龙游戏开发体验分享

LangFlow故事接龙游戏开发体验分享 在内容创作与AI交互日益融合的今天,如何让非技术人员也能轻松参与智能叙事设计?一个典型的挑战出现在“故事接龙”这类创意型应用中:既要保证多轮对话的上下文连贯性,又要支持灵活的情节分支和…

作者头像 李华
网站建设 2026/5/11 21:12:26

LangFlow慢性病管理提醒机器人构想

LangFlow慢性病管理提醒机器人构想 在慢性病患者日益增多的今天,如何帮助高血压、糖尿病等长期服药人群保持良好的治疗依从性,已成为医疗健康领域的一大挑战。许多患者并非不重视健康,而是被繁琐的用药时间表、复杂的饮食限制和频繁的指标监…

作者头像 李华