每日 AI 评测速递来啦（1.14）-洪萨配资

司南·Daily Benchmark 专区今日上新！

Deep Research Bench II

一个用于评估深度研究系统生成研究报告的新型评测基准，涵盖 22 个领域的 132 个有事实依据的研究任务。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2008536

M3-Bench

一个面向混合动机博弈的多阶段评测基准，并配套引入了一套过程感知的评估框架，可在以下三个模块上开展协同分析：行为轨迹分析；推理过程分析；沟通内容分析。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2008462

CLaS-Bench

一个轻量级的并行问题评测基准，用于评估大语言模型在 32 种语言上的语言强制行为，从而支持对多语言 steering 方法进行系统化比较。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2008331

MPCI-Bench

首个面向智能体场景的多模态成对情境完整性评测基准，由源自同一视觉输入的正负样本对构成，并在三个层级展开：规范性的 Seed 判断、富上下文的 Story 推理，以及可执行的智能体行为 Trace。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2008235

2025 司南年度最受欢迎评测集评选活动正式火热进行中~

欢迎大家提交 / 推荐 / 投票，让真正有价值的评测工作被更多人看见。

活动页面：

https://hub.opencompass.org.cn/2025-annual-benchmark

VOL.Framework：企业级低代码开发平台的终极解决方案

VOL.Framework：企业级低代码开发平台的终极解决方案【免费下载链接】Vue.NetCore (已支持sqlsugar).NetCore、.Net6、Vue2、Vue3、Element plusuniapp前后端分离，全自动生成代码；支持移动端(ios/android/h5/微信小程序。http://www.volcore.…

李华

国家中小学智慧教育平台电子教材下载：告别网络限制，随时随地畅享学习资源

国家中小学智慧教育平台电子教材下载：告别网络限制，随时随地畅享学习资源【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台电子课本下载工具项目地址: https://gitcode.com/GitHub_Trending/tc/tchMaterial-parser 您是否曾经遇到过…

李华

DeepSeek-R1-Distill-Qwen-1.5B数学符号识别：手写公式转LaTeX

DeepSeek-R1-Distill-Qwen-1.5B数学符号识别：手写公式转LaTeX 1. 引言 1.1 业务场景描述在科研、教育和工程领域，数学公式的数字化录入是一项高频且繁琐的任务。传统方式依赖手动输入 LaTeX 代码，对非专业用户门槛较高。随着深度学习技术…

$作者头像$ 李华

一键实现艺术梦想：AI印象派工坊部署与使用手册

一键实现艺术梦想：AI印象派工坊部署与使用手册 1. 章节名称 1.1 AI 印象派艺术工坊在数字艺术与人工智能交汇的今天，每个人都可以成为艺术家。AI 印象派艺术工坊（Artistic Filter Studio）正是为此而生——一个轻量、高效、无需…

李华

实测通义千问2.5-7B-Instruct：AI助手效果超预期

实测通义千问2.5-7B-Instruct：AI助手效果超预期随着大语言模型在推理能力、指令遵循和结构化输出方面的持续进化，Qwen系列最新发布的 Qwen2.5-7B-Instruct 模型引起了广泛关注。该模型基于72亿参数规模，在数学推理、代码生成、长文本理解以…

李华

5分钟部署ms-swift，轻松实现AI模型微调与推理

5分钟部署ms-swift，轻松实现AI模型微调与推理 1. 引言：为什么选择ms-swift进行大模型微调？ 在当前大模型快速发展的背景下，如何高效、低成本地完成模型的微调、推理与部署，成为开发者和研究者关注的核心问题。ms-swi…

李华