news 2026/3/22 17:37:26

首批!景联文入选杭州语料库高质量数据集建设先行先试清单

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
首批!景联文入选杭州语料库高质量数据集建设先行先试清单

|首批高质量数据集建设先行先试清单的发布,不仅是官方对数据价值的认证,更是景联文科技从数据服务商迈向“AI数据基础设施”的关键一步。

近日,在浙江省数据局指导下,杭州市数据资源管理局联合杭州市数据集团等单位,通过“揭榜挂帅”机制,正式发布首批50个杭州语料库高质量数据集建设先行先试清单。景联文《教育大模型英文知识数据集》成功入选,成为教育教学领域代表性高质量数据产品,标志着公司在教育垂直领域的数据服务能力获得了官方与市场的双重认可

5637万道结构化英文试题,打造教育大模型“黄金语料”

本次入选的《教育大模型英文知识数据集》,是景联文科技历时一年自主研发的行业专用类高质量数据资产。数据集总量超5760万道英文试题,其中:

  • K12英文试题5637万道,覆盖商业、计算机、教育等20+学科,76%配备详细解析;
  • 大学英文试题9.7万道,涵盖英语、数学、生物等19门核心课程,每题均含专业解析;
  • 多模态试题150万道,图像规格不低于768×1024像素,支持图文理解与跨模态训练;
  • 指令微调数据达5637万条提示问答对,重复率<0.05%,专为大模型对齐优化设计。

所有数据采用JSONL结构化格式,字段完整覆盖学科、考点、题型、学段、年级、难度、题干、选项、答案、解析及媒体资源,严格遵循《2025高质量数据集实践指南(1.0)》标准,题目完整度≥95%,答案准确率≥95%。

接入杭州语料库,推动教育数据要素市场化流通

根据杭州市数据资源局政策,首批高质量数据集将通过数据产权确认,接入杭州语料库,面向社会提供创新性、示范性数据服务。此次入选,不仅验证了景联文数据产品的技术领先性,更打通了从“数据资源”到“数据资产”再到“数据产品”的转化路径。

景联文构建了“采集-清洗-标注-质检-迭代”全生命周期治理体系,自研AI治理平台支撑百万级数据日处理能力,已为教育科技公司、出版集团及大模型研发机构提供专项数据服务,助力智能教育生态高质量发展。

景联文也明确了下一步方向:持续提升数据质量至更高标准。并计划向STEM、前沿科技等更高价值学科拓展,构建包含音视频的多模态3.0版本题库,以适配教育大模型更复杂的交互需求。让AI真正赋能因材施教,促进教育公平与质量提升。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/20 20:59:26

量子计算开发必看,VSCode远程调试连接难题一网打尽

第一章:量子计算开发必看,VSCode远程调试连接难题一网打尽在量子计算开发中,开发者常需在本地使用 VSCode 连接远程量子模拟器或真实量子硬件进行调试。然而,网络配置、SSH 认证与环境依赖等问题常常导致连接失败。掌握正确的远程…

作者头像 李华
网站建设 2026/3/15 20:20:06

ONNX模型下载终极指南:5种场景化解决方案让你告别龟速下载

ONNX模型下载终极指南:5种场景化解决方案让你告别龟速下载 【免费下载链接】models A collection of pre-trained, state-of-the-art models in the ONNX format 项目地址: https://gitcode.com/gh_mirrors/model/models 在AI项目开发中,ONNX模型…

作者头像 李华
网站建设 2026/3/21 6:25:07

哪些因素和参数会影响Bloom的性能开销

1)哪些因素和参数会影响Bloom的性能开销 2)为何Scripting Threads的#0线程数量异常 这是第457篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等技术知识点,助力大家更全面地掌握和学习。 F…

作者头像 李华
网站建设 2026/3/14 1:14:14

AI搜索时代,如何系统构建品牌的“算法推荐”话语权

摘要生成式AI的浪潮正以前所未有的速度重塑用户获取信息和做出决策的方式。Gartner预测,到2026年,传统搜索引擎的流量份额将因生成式AI的冲击而再度下降25%。这意味着,企业过去赖以生存的SEO策略,其效果边界正在被快速侵蚀。一个更…

作者头像 李华
网站建设 2026/3/16 16:45:34

Nginx访问限制实验

文章目录 连接限制配置实验实验步骤请求限制配置实验实验步骤 连接限制配置实验 通过 Nginx 的<font style"color:rgb(0, 0, 0);">limit_conn</font>和<font style"color:rgb(0, 0, 0);">limit_req</font>模块&#xff0c;分别限制…

作者头像 李华
网站建设 2026/3/15 2:31:07

内存优化终极指南:5步快速提升大模型性能

内存优化终极指南&#xff1a;5步快速提升大模型性能 【免费下载链接】lmdeploy LMDeploy is a toolkit for compressing, deploying, and serving LLMs. 项目地址: https://gitcode.com/gh_mirrors/lm/lmdeploy 在大语言模型部署过程中&#xff0c;内存瓶颈往往是制约性…

作者头像 李华