news 2026/6/16 11:18:51

arXiv 2026新规深度解读:机构邮箱失效、AI连坐封号、综述拒收——预印本平台正在告别“草稿时代”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
arXiv 2026新规深度解读:机构邮箱失效、AI连坐封号、综述拒收——预印本平台正在告别“草稿时代”

arXiv正从一个“人人可发的草稿仓库”,转变为有明确准入规则和严格问责的“学术权威通道”。


引言

2026年5月,arXiv预印本平台发布了一条令全球学术界震动的新规:利用AI生成“水论文”的作者将被封号一年,所有署名作者一并连坐受罚。

然而,这并非arXiv“一刀切”限制AI工具的使用,而是八个月内一系列“严打行动”的第四刀。

在此之前:

  • 2025年10月:CS类别拒收综述与立场论文,除非先行通过同行评审
  • 2026年1月:机构邮箱不再是新作者自动获得投稿资格的有效凭证,引入更严格的背书规则
  • 2026年2月:所有投稿须有完整英文版本,可接受AI翻译但作者负全责
  • 2026年5月:AI内容未核查者封号一年,作者连带处罚

这四条规定,每一刀都落在痛处,在学术社区引发了广泛的质疑与讨论。要理解这背后发生的一切,必须先弄清楚arXiv是什么,它经历了什么,以及为何走到了这一步。

下面,我们逐一梳理。

一、arXiv是什么?

1.1 从历史说起

arXiv的诞生,可以追溯到1991年。那时候,互联网还没有万维网(WWW),电子邮件是科学家们最重要的交流工具之一。

在arXiv正式上线之前,高能物理学家们习惯于通过电子邮件向同行交换最新的论文预印本——这些论文尚未经过期刊审稿、没有正式出版,但研究人员希望第一时间获得反馈并抢占学术发现的“优先权”。

物理学家保罗·金斯巴格(Paul Ginsparg)发现,这种电子邮件群发的方式既不便管理,也缺乏归档,于是他建立了一个自动化系统,最初只是针对超弦理论这一小众研究社区设计的,结果很快在理论物理研究界迅速扩散。

两年后,1993年,该系统迁移至万维网;1998年,域名正式定为arXiv.org,“arXiv”这个名字的读音是“archive”,其中的“chi”用了希腊字母χ来替换,既保留了“存档”的核心语义,又在字体排版上与学术预印本形成了独特辨识度。

到2001年,康奈尔大学图书馆正式接管了arXiv的运营、编辑和管理工作,这一运营框架一直延续至今。2023年,平台获得西蒙斯基金会和美国国家科学基金会超过1000万美元的捐款,用于现代化改造和云端迁移;而到2026年夏天,arXiv将从康奈尔大学剥离,转型为独立的非营利机构,宣告其“脱胎换骨”的新篇章。

1.2 今天的arXiv有多大?

根据arXiv官方数据,目前平台涵盖8个学科领域,累计收录近300万篇学术预印本论文,绝大多数集中在计算机科学、物理学和数学领域。

arXiv每天要处理700到1400篇新投稿,每月累计约20000篇。这些论文未经同行评审就直接上线公开,但在发布之前,约300名志愿者版主会对投稿进行审核,确保“内容恰当且贴合主题”,剔除抄袭和非科学类内容。

换言之,arXiv的独特价值在于:它让学术成果以天为单位发布,而不是以年为单位。

然而,这恰恰也成为它最脆弱的“阿喀琉斯之踵”。

二、arXiv遇到了什么危机?——AI垃圾稿件洪流

2.1 “等着看”——一句预言成真

arXiv编辑理事会主席、阿姆斯特丹大学天文学家Ralph Wijers回忆,2022年ChatGPT刚刚发布时,arXiv团队其实并没有立即感受到明显的冲击。整个2024年,AI生成论文的影响几乎可以忽略不计。“但我的好几位同行当时就提醒说:等着看。”Wijers说。

到了2025年初,AI生成的垃圾稿件(学术界称之为“AI slop”,即毫无科学价值的AI生成灌水内容)开始呈指数级增长,先是计算机科学领域,后逐渐蔓延到其他学科。

2.2 数字有多夸张?

  • 过去,版主平均拒稿率约4%,如今已飙升至10%到12%。仅2025年一年,拒稿率几乎翻了三倍。
  • 一项研究估计,2025年全球学术论文中至少出现了超过14.6万条幻觉引用——这些引用指向的论文完全不存在。
  • “四页的论文里硬塞进50个小节,其中有些小节压根没有内容。”Wijers这样描述版主每天遇到的情况。这类稿件根本不像正经科学论文,但生成式AI让批量制造这种东西变得又快又容易。

2.3 为什么首当其冲的是综述类论文?

AI尤其擅长“综述”和“立场论文”——这两类论文不需要实验数据,不需要创新结果,只需要对既有研究进行总结、分类和评论,非常适合大规模AI生成。但问题在于,它们耗费了版主团队大量精力去甄别,因为很多综述本质上只是“带注释的参考文献列表,缺乏真正的分析或规划”。

2025年10月,arXiv终于出台了第一刀:CS类别拒收未经同行评审的综述和立场论文

2.4 并非人人支持这个决定

部分研究者担忧,这反而会削弱arXiv最核心的“即时发布”优势。像“氛围编程”这类新兴概念方向,如果要走三个月甚至更长的期刊评审流程才能上线预印本,最前沿、最时效的综述可能就此被直接“闷死”。

三、四刀新规,一刀一刀拆解

第一刀:CS综述与立场论文“拒之门”(2025年10月)

核心变化:所有投递到计算机科学类目的综述(review/survey)与立场论文(position paper),必须先被正式期刊或会议接收并完成同行评审,提交时需附带评审通过证明和DOI,否则一律拒收。

苛刻细节:workshop评审不算数,因为arXiv认为workshop的评审机制与传统期刊会议相比“不够严谨”。

初衷:不是AI不能用,而是要让作者对内容负责,为版主减负。从某种意义上讲,综述与立场论文从来都不在arXiv官方接收的内容清单里,过去依靠版主“网开一面”才存在豁免窗口。

第二刀:背书门槛升级,告别“单一机构邮箱”(2026年1月21日)

这是此次四条规定中,影响面最大、争议也最大的一条。

旧制:只要你有一个edu或.ac结尾的学术/研究机构邮箱,首次向arXiv投稿时系统就会自动放行,本质上是“信任机构,不信任个人”。

新制(自2026年1月21日起):新投稿者必须同时满足两个条件才能自动获得投稿资格:

  1. 来自学术/研究机构的邮箱地址;
  2. 在你想投稿的“背书域”(endorsement domain)中已有过被arXiv接收的论文。

所谓“背书域”,是将不同学科进一步细分的投稿权限领域,比如cs.LG(机器学习)、cs.CL(计算语言学)。即便你在cs.LG发过论文,想投cs.CL时,之前的资格也全部清零。

自动背书走不通怎么办?——走第二条路:个人背书。

如果不符合上述两条,新作者可以申请“手动背书”:在arXiv系统里寻找一位已在同一背书域内具备投稿资格的“老人”,通过ORCID完成身份验证,由对方手动背书。arXiv工作人员无法为作者提供背书。

谁不受影响?已在某背书域发表过论文的作者,在该域内的背书资格保留,可继续投稿,但跨域仍需重新背书。

影响有多大?从社交媒体和学术社区的反馈来看,这一刀对独立研究者冲击尤其严重。没有机构邮箱、靠自学或转行挤进AI圈的工程师,几乎一夜之间丧失了在arXiv首发论文的能力。即便你刚入学、有.edu邮箱、导师是学术大牛,只要还没发表过论文,仍然必须找人手动背书。

更有研究者指出,这是一场“延迟发作的伤害”。第一刀2025年10月砍下来时,因为一篇综述从写作到走完期刊评审本就需要3到6个月,所以到2026年春季开学季和第一批学生投出第一篇论文时,这个门槛的杀伤力才真正爆发出来。

第三刀:英语强制令(2026年2月11日)

过去,arXiv只要求提供英文摘要;现在整篇论文都须以英文撰写,或附上完整英文翻译版本。AI翻译(如GPT-4o等工具)被明确允许,但全体作者对翻译的准确性负有全责。

争议在哪里?许多法语、西班牙语学者批评这建立了一种“语言壁垒”,可能迫使研究者转向HAL等支持多语言投稿的预印本平台。

不过,从数据上看,目前arXiv仅有约**1%**的投稿使用非英语语言,所以实际受影响范围有限,但其象征意义大于实质影响。

第四刀:AI生成未核查,封禁一年+连坐(2026年5月)

如果说前三刀是“准入”层面的改革,那么第四刀直接击穿了学术诚信的核心红线。

触发条件:论文中出现“无可辩驳的证据”,证明作者未核查LLM生成的内容。

典型“无可辩驳证据”包括:

  • 幻觉引用:指向一篇完全不存在的论文
  • LLM元评论残留:稿件中仍保留AI的提问痕迹,如“这是一段200字摘要,是否需要修改?”
  • 占位符未填:表格里写着“请用实验真实数据填入此处”等字样

处罚力度:一旦查实,全体署名作者(“签名即担责”)——无论是不是论文的主要撰写人——一并被封禁一年。解封后,所有新投稿必须先被声誉良好的正规期刊或会议接收、通过同行评审,才可再次上传到arXiv。

AI是不是完全被禁了?不是。用AI润色语言、AI辅助查文献,都不在新规禁止范围内。新政卡的是“你有没有认真读过自己署名的论文”。逻辑很简单:如果正式提交的论文里还保留着占位符和元评论,说明作者连最基本的检查都没有完成,那论文的其余内容显然不值得信任。

四、各方反应与深度审视

支持派:陶哲轩公开附议

菲尔兹奖得主、加州大学洛杉矶分校数学家陶哲轩第一时间在Mastodon发文,用自己提出的“四条学术AI治理框架”逐一对照了arXiv新规,给出了总体判断:在生成论文远比消化论文容易得多的时代,任何将传统科学机构的平衡重新倾向于“消化成果”方向的努力,都是值得欢迎的

他强调,前两条建议——“明确AI辅助的许可边界”和“降低对抢先发表的强调,转重视消化成果”——与新规高度契合。至于重度使用AI的研究,他并不认为会在arXiv上被完全扼杀:viXra等几乎不对AI投稿设限的平台,可以成为未经充分“消化”内容的独立存档地。

质疑与担忧

对独立研究者不友好:很多AI领域的研究者表示,独立研究者、换赛道或转行的学者,几乎一夜之间丧失了在arXiv上首发成果的机会。即便是刚拿到机构邮箱的博士生,也必须完成“找大佬背书”这道工序。

连坐处罚是否公平:多人在arXiv政策公告下留言质疑:如果一个恶意论文在未征得合作者同意的情况下把某人的姓名列入作者列表并投稿到arXiv,此人是否也会被连带禁投?对此,arXiv计算机科学版块主席Thomas Dietterich表示,所有已作者可以通过论文所有权认领流程来管理自己的论文记录,但同时也承认“我们的流程中可能会存在偏见”,并表示“非常乐意与研究界合作,共同评估审核流程中的偏见与成效”。

语言壁垒问题:法语、西班牙语学者批评英语强制要求是一种语言层面的学术壁垒,可能迫使非英语母语研究者转投其他预印本平台。

政策执行偏差疑虑:还有研究者担心,“这项政策会根据机构特权和个人的知名度选择性执行,最终沦为一种工具,用来让没有背景关系的人闭嘴,而不是促进更良性的科学讨论”。Dietterich对此回应称,会使用一套标准的大语言模型检测算法辅助识别需要审查的论文,尽量减少人工偏见。

五、对新规的全面审视:是非对错

不应忽视的一个时间点

四条新规之所以近乎同时密集出台,除了垃圾稿件泛滥这一表面原因之外,还有一个更深层的制度背景:arXiv正在从康奈尔大学旗下机构向独立非营利组织转型,2026年7月1日将正式完成这一剥离。在这个关键的转型过渡期内,新团队必须向学术社区展示出清晰的治理方向和严格的审核标准,获取更广泛的经费支持与合作信任,才能为未来独立运营铺平道路。

换言之,今天的严苛标准,正是明天独立运行所需的“信用基础”。

是非对错:盘点核心争议

积极的一面:

  • 对学术造假和不端行为设定了清晰、可操作的问责边界。“幻觉引用”和“占位符未填”这类低级的、非科学的论文操作,确实是必须被杜绝的现象。
  • 显著减轻了版主的无偿审核负担。原来每天看到50个小节的“拼凑论文”会直接耗尽审核热情。
  • 符合学术社区对“负责任的AI使用”的普遍期待——不禁止AI,但必须由人类对输出结果负最终责任。

值得担忧的一面:

  • 第一刀(综述拒收)可能误伤有真正学术价值的综述论文。尤其是发展极快的AI领域,一篇优秀的综述如果在等待期刊评审的过程中“过期”,就等于丧失了最宝贵的时效性。
  • 第二刀(升级背书门槛)对独立研究者、跨学科转向的研究者极不友好,本质上创造了一种“圈地自萌”的资格壁垒。这与arXiv创建之初“对所有人开放”的理念存在一定张力。
  • 第四刀(署名连坐)在实操中可能引发正当性问题——合作者是否应无条件对所有LLM相关错误承担连带责任?如果论文是博士生主笔,导师的角色如何界定?这些问题尚需进一步打磨。

六、对新作者的建议

如果你是第一次准备向arXiv投稿:

① 认领论文所有权
如果你过去已发表过论文但从未认领过arXiv所有权,现在赶紧去arXiv主页通过“paper ownership”功能进行认领。这不仅能为你积累背书资格,也有助于建立你的学术档案记录。主动认领与维护比临时抱佛脚要好得多。

② 提前确认背书域
跨域投稿意味着之前的所有资格全部清零。如果你打算在多个子领域之间跨界投递,请提前联系已在目标背书域内发表过论文的合作者、导师或同行,预留时间和名额为你手动背书。

③ 逐条核对参考文献
幻觉引用是最容易被发现、最难抵赖的违规证据。LLM会写出极为真实但完全捏造的论文标题、作者和期刊名称,务必逐一核实。

④ 全文英文提交,或附上可靠译本(AI翻译后人工核对)
如果原稿为法语、西班牙语、汉语等非英语语言,需要附上完整英文翻译版本。AI翻译可用,但全体作者对翻译准确性负有完全责任。

⑤ 遵守署名自律原则
审慎对待作者列表:所有署名作者原则上都应当阅读过全文,并共同确认论文的科学诚信与内容正确性,以确保一旦发生问题时能够共同承担责任。

七、结语:arXiv的转型意味着什么?

35年前,arXiv用预印本模式打破了传统学术出版的漫长周期;今天,它又在AI的浪潮中重塑着自己的规则。

从“共享草稿的社区”到“有门槛的权威通道”——这不仅是arXiv的变化,也是整个预印本时代的集体自觉。对于一位诚信的科研工作者而言,新规无非是增加了“提前认领论文”“检查参考文献”两道工序;但对于依赖AI批量化生成“灌水论文”的造假者而言,新规意味着直接出局。

至于它会不会导致学术圈产生新的特权门槛,会不会误伤真正的独立研究者,会不会扼杀跨学科的创新尝试——这些问题,也许只有时间和下一轮政策迭代,才能给出最终答案。

但至少有一点是确定的:arXiv正在从一个“只要你想发就能发”的草稿仓库,走向一个“你要对自己的学术身份和每一行文字负责”的正式系统。而这,恰恰是科学共同体在面对AI冲击时必须守住的第一道防线。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/16 11:15:04

SEGE海雾盐盾系统:把腐蚀挡在结构之外

海边环境不是普通潮湿的放大版,而是一套更复杂的腐蚀系统。海雾中夹带盐分,水汽在金属、胶层、封边和板材表面反复凝结,昼夜温差又不断推动材料收缩与膨胀。SEGE 将这种环境称为「盐湿耦合」:它考验的不是单一防水能力&#xff0c…

作者头像 李华
网站建设 2026/6/16 11:14:30

Spring Boot + LLM 工程化:把短视频流水线拆成 16 个独立角色的踩坑记录

写在前面 如果你最近也在用 LLM 做内容流水线,大概率踩过这几个坑: prompt 链一长就脆,任何一步出错整条链报废画面和字幕对不上,差 1-2 秒字幕就飘改一个细节得重跑全流程,中间产物没落库平台数据回写不知道怎么用 我业余时间做了一个开源项目 Auteur,把这些问题逐个解决了。这…

作者头像 李华
网站建设 2026/6/16 11:14:30

终极指南:在Linux上完美运行哔哩哔哩客户端的3种简单方法

终极指南:在Linux上完美运行哔哩哔哩客户端的3种简单方法 【免费下载链接】bilibili-linux 基于哔哩哔哩官方客户端移植的Linux版本 支持漫游 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-linux 想在Linux桌面上享受完整的哔哩哔哩体验吗&#xf…

作者头像 李华
网站建设 2026/6/16 11:13:59

2026手机制作红底证件照保姆级教程,多款换背景软件手把手教学

急着报名考证、入职交材料需要红底证件照,线下照相馆排队花钱不说,拍出来还不一定满意?想自己用手机做红底证件照,却不知道靠谱的手机证件照换背景软件有哪些,抠图边缘发毛、底色不正、尺寸不合规,每次导出…

作者头像 李华
网站建设 2026/6/16 11:11:53

Web 渗透测试课程学习心得

一、前言这个学期系统学习了 Web 渗透测试课程,从基础的代理爬虫、身份会话测试,到文件包含、文件上传漏洞,再到手工 SQL 注入与 SQLMap 工具自动化注入,一步步从零接触网络安全攻防。过去我对网络安全的认知只停留在 “黑客攻击网…

作者头像 李华