news 2026/6/9 18:52:10

Aryabhata-1.0:JEE数学解题新突破,90%正确率!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Aryabhata-1.0:JEE数学解题新突破,90%正确率!

Aryabhata-1.0:JEE数学解题新突破,90%正确率!

【免费下载链接】Aryabhata-1.0项目地址: https://ai.gitcode.com/hf_mirrors/PhysicsWallahAI/Aryabhata-1.0

导语:印度教育科技公司Physics Wallah AI Research推出专为JEE数学考试优化的70亿参数小型语言模型Aryabhata-1.0,在2025年JEE Mains考试中实现90.2%的正确率,以高效计算成本和紧凑模型规模重新定义AI辅助备考范式。

行业现状:随着生成式AI技术在教育领域的深入应用,考试专用大模型正成为新的竞争焦点。据行业报告显示,全球教育AI市场规模预计2025年将突破100亿美元,其中应试辅导类工具增速领先。当前主流数学大模型普遍存在参数规模庞大(多为100亿+)、推理成本高、针对特定考试适应性不足等问题,尤其在印度JEE这类高难度竞争性考试中,通用数学模型的解题准确率普遍低于75%。

产品/模型亮点:Aryabhata-1.0通过创新训练策略实现了"小而精"的突破。该模型基于Qwen2.5-Math-7B基座,融合模型合并、拒绝采样、监督微调(SFT)和可验证奖励强化学习(RLVR)等多阶段训练技术,在仅70亿参数规模下实现了突破性性能。

最引人注目的是其在真实考试场景中的表现:在2025年JEE Mains四月 session的225道数学题测试中达到90.2%的准确率,一月session也达到86%的正确率。这种性能表现甚至超越了部分参数规模更大的通用数学模型。

这张柱状图清晰展示了Aryabhata 1.0与GPT-4o、Qwen2.5-Math-7B等模型在JEE Jan和JEE Apr两个测试集上的准确率对比。黄色和红色柱子分别代表不同月份考试的表现,直观显示出Aryabhata 1.0在专门针对JEE考试优化后的显著优势。对备考学生和教育机构而言,这为选择高效的AI辅助工具提供了数据依据。

除高准确率外,Aryabhata-1.0还具备两大核心优势:一是出色的Token效率,仅需约2K的token窗口即可有效运行,远低于同类模型所需的8K窗口;二是计算成本优势,该模型在单张NVIDIA H100 GPU上即可完成训练,部署成本显著降低。这些特性使其特别适合资源有限的学生群体和教育机构使用。

训练数据方面,模型使用了约13万道来自Physics Wallah专有数据库的高质量数学题解对,通过严格筛选确保与JEE 2019-2024年真题分布高度匹配,形成约10万道问题和35万条高质量思维链(CoT)的训练集,这种高度针对性的数据准备是其考试表现优异的关键因素。

此散点图展示了Aryabhatta 1.0与Gemini 2.5 Flash、GPT-4.1等模型在准确率与Token使用量方面的关系。图中数据点表明,Aryabhatta 1.0在保持高准确率的同时,显著降低了Token消耗,这意味着在实际应用中能提供更快的响应速度和更低的使用成本,对需要大量刷题的JEE考生来说尤为重要。

行业影响:Aryabhata-1.0的推出标志着考试专用AI模型进入实用化阶段。其"小模型、高精准"的设计理念可能引发教育AI领域的技术路线转变,推动更多针对特定考试和学科的垂直优化模型出现。对印度每年超过100万的JEE考生而言,这种高准确率的AI辅助工具不仅能提供即时解题指导,还能通过思维链展示培养解题思路,有效弥补优质教育资源不足的问题。

教育科技企业Physics Wallah通过此模型进一步巩固了其在印度竞争激烈的教育科技市场地位。该模型目前已开源,开发者可通过Hugging Face Transformers或vLLM框架轻松部署,这将加速AI教育应用的创新生态建设。

结论/前瞻:Aryabhata-1.0证明了通过精心设计的训练策略和高质量领域数据,小型语言模型完全可以在特定任务上达到甚至超越通用大模型的性能。随着AI在教育领域的深入应用,我们可以期待:首先,模型能力将从数学扩展到物理、化学等更多学科;其次,应用场景将覆盖JEE Advanced、NEET等更广泛的考试类型;最后,通过持续优化,这类模型将在保持高准确率的同时进一步降低部署门槛,让更多学生受益于AI辅助教育技术。

Physics Wallah已公布Aryabhata 2.0的开发计划,未来将扩展到物理和化学领域,并支持JEE Advanced和NEET考试,这预示着AI应试辅助工具正朝着多学科、全流程的方向发展,有望重塑传统备考方式。

【免费下载链接】Aryabhata-1.0项目地址: https://ai.gitcode.com/hf_mirrors/PhysicsWallahAI/Aryabhata-1.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/7 1:37:14

如何快速掌握Python期权分析:Optopsy完全指南

如何快速掌握Python期权分析:Optopsy完全指南 【免费下载链接】optopsy A nimble options backtesting library for Python 项目地址: https://gitcode.com/gh_mirrors/op/optopsy Optopsy是一个专为Python设计的轻量级期权策略回测库,通过灵活的…

作者头像 李华
网站建设 2026/6/9 13:44:32

ERNIE 4.5-VL:424B参数打造多模态AI新体验!

ERNIE 4.5-VL:424B参数打造多模态AI新体验! 【免费下载链接】ERNIE-4.5-VL-424B-A47B-Base-Paddle 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-424B-A47B-Base-Paddle 百度最新发布的ERNIE 4.5-VL-424B-A47B-Base-Paddle多…

作者头像 李华
网站建设 2026/6/7 7:06:58

LG EXAONE 4.0:12亿参数双模式AI模型来了

LG EXAONE 4.0:12亿参数双模式AI模型来了 【免费下载链接】EXAONE-4.0-1.2B 项目地址: https://ai.gitcode.com/hf_mirrors/LGAI-EXAONE/EXAONE-4.0-1.2B LG电子旗下人工智能研究机构LG AI Research正式发布EXAONE 4.0系列大语言模型,其中轻量级…

作者头像 李华
网站建设 2026/6/7 7:32:41

aarch64电源管理控制器(PSCI)早期调用实战解析

aarch64电源管理控制器(PSCI)早期调用实战解析从一个“黑盒”开始:为什么CPU不能自己启动自己?你有没有想过这样一个问题:在一个四核aarch64处理器上,系统加电后,只有一个核心被激活执行第一条指…

作者头像 李华
网站建设 2026/6/7 7:08:33

AnimeGANv2风格训练细节:宫崎骏画风还原度评测

AnimeGANv2风格训练细节:宫崎骏画风还原度评测 1. 引言 1.1 AI二次元转换的技术演进 随着深度学习在图像生成领域的持续突破,风格迁移技术已从早期的简单滤波效果发展为如今高度拟真的艺术化重构。AnimeGAN系列模型作为专为“真人照片转动漫风格”设计…

作者头像 李华