黄大年茶思屋难题揭榜第19期完整题目+摘要+标签+解题规划+总结
一、本期题目战略需求摘要
本次黄大年茶思屋难题揭榜第19期,紧扣黄大年先生深耕科研攻关、助力国家科技自主、推动前沿技术产业化落地的核心战略理念,聚焦AI大模型训练与推理全流程性能优化、轻量化部署、超大规模模型落地应用三大核心方向,精准对标国家算力自主可控、AI技术普惠化、大模型产业落地的战略需求。旨在攻克昇腾硬件生态下AI模型训练冗余、数据受限场景下模型压缩难、千亿级MoE大模型规模化落地瓶颈等行业核心技术难题,补齐国产AI算力平台算法适配短板,推动大模型从云端训练走向边缘端、端侧高效部署,实现AI技术与国产硬件深度融合,助力国家人工智能产业自主化、高效化、规模化发展,践行黄大年先生科技报国、攻克关键核心技术的战略追求。
二、黄大年茶思屋难题揭榜第19期完整题目
难题一:硬件亲和的去计算冗余的训练加速算法
研究背景
模型训练是AI计算的主流场景,提升模型训练性能可缩短模型训练总耗时,减少训练成本。训练性能的提升一般分为优化器算法优化、并行加速算法,本课题希望从减少单步计算时间方向征集一种训练加速算法,可以与其他优化手段叠加加速效果。
去计算冗余直接提升训练性能:该类算法可自动识别模型的冗余信息,在前后向计算过程中能够选择性地对参数进行计算和更新,可极大减少计算量,取得较好的加速效果。但是算法需要解决如何自动识别冗余参数、减少额外开销、不影响训练收敛等问题,并实现硬件亲和,挑战很大。
技术挑战
业界已有的工作主要有剪枝、参数选择更新等方式,在升腾上加速效果有限,原因是这些算法会引入一些昇腾不亲和的计算。目前面临的技术挑战主要包括:
- 硬件亲和:不同的硬件对不同的算子的运行性能有差异,算法设计需要考虑引入的算子在硬件上的执行效率问题;
- 通用性:算法需要支持常见的CNN/RNN/Transformer类模型。
技术诉求
选项一:提供一种通用的硬件亲和的去除计算冗余的训练加速算法方案,具备以下特性:
- 理论论证算法方案在典型CV/NLP模型(ResNet50/Yolov5/Bert)上能够最低减少训练端到端(前向+反向+参数更新)40%的计算量,不改变网络结构,证明收敛速度不低于基线;
- 算法方案使用昇腾亲和算子(如矩阵相乘相关Op,出题方可提供算子列表),不引入排序、阈值判断等昇腾不亲和算子;
- 算法方案包含自适应冗余信息识别及精度补偿的模块,适用典型CV/NLP模型训练场景。
选项二:在选项一的基础上,提供去计算冗余的训练加速算法的设计和实现,可直接在华为昇腾平台上验证:
- 昇腾Atlas 800T A2/A3服务器上典型CV/NLP模型训练TTA缩短40%,验收模型为ResNet50/Yolov5/Bert;
- 支持扩展到Transformer类大模型,验收模型为LLaMA2-7B,验收环境为4台Atlas 800T A2/A3服务器。
难题二:Data-free/Label-free模型压缩算法
研究背景
场景需求:针对轻量化推理部署(如实时安防监控),用户使用平台提供的模型压缩服务的时候,出于数据安全考虑仅提供预训练模型及少量无标注数据,需要在这种场景下实现Data-free/Label-free的模型压缩以达到用户期望的精度和性能要求。
技术现状:训练后压缩算法,典型代表为PTQ,可基于少量无标注数据集(Label-free)甚至无数据(Data-free)方式实现。一方面,PTQ量化精度损失需要更有效控制,以满足更少数据量、更低比特量化的使用;另一方面,除PTQ以外,其他压缩算法(如剪枝)较难达成有效压缩,需探索新算法设计。
技术价值:有效的Data-free/Label-free训练后模型压缩算法,可保证低量化精度损失,同时极大提升量化应用的易用性。
目前技术问题
- 精度挑战:Data-free/Label-free训练后模型压缩,分为生成式与非生成式方法,在高压缩比条件下,两种方法都会带来较大的精度损失(例如4-bit量化、剪枝超过50%等)。
- 训练后压缩问题:当业界训练后压缩方案主要是8-bit PTQ量化,压缩比为3x~4x,且部分轻量化场景的精度损失超过0.5%。一方面,需增强PTQ量化效果,并探索更低比特量化的可行方案(如4-bit量化);另一方面,需探索诸如稀疏、剪枝等其他压缩算法,并确保这些算法能与PTQ量化叠加使用,以达成更高压缩比与推理性能。
技术诉求
选项一:提供一种Data-free/Label-free的训练后模型压缩技术方案
- 允许设计一种或叠加多种压缩算法(如PTQ、训练后剪枝/稀疏等);
- 理论论证技术方案在典型CV模型(例如ResNet50/Yolov5-m)上执行任务(例如ImageNet/COCO2017)能够实现至少平均4.5x压缩;在NLP模型(例如BERT-base)上执行任务(例如GLUE MRPC/GLUE SST2/5QuanD1v1)能够实现至少平均4.5x压缩;
- Label-free方案的样本量为300,精度损失<0.5%;Data-free方案的精度损失<1%;
- 确保昇腾亲和的软硬件实现,要求方案新设计的算子符合昇腾亲和算子的定义(出题方可提供)。
选项二:提供Data-free/Label-free的训练后模型压缩技术方案及其完整实现,可在华为昇腾Atlas 300 DUO平台上实现并进行算法验证,指标要求与选项一相同,并且压缩后模型的端到端推理性能相比原模型提升30%以上。
难题三:挑战千亿规模MoE类大模型泛化过程中的万倍压缩
研究背景
需求背景:预训练大模型(Foundation Model)扮演着知识引擎(Knowledge Engine)的角色,当泛化到特定的下游任务时,需要抽取出对应的知识并结合压缩蒸馏算法支持,来满足下游任务对计算资源和推理时间的需求。目前业界的模型压缩和蒸馏框架均针对亿级及以下规模的模型,通过单个或多个算法组合达到压缩10~100倍的效果,暂无可压缩万倍及以上的框架或者范式。千亿级以上MoE类大模型的压缩算法暂无成熟方案。
技术价值:首发千亿级以上MoE大模型的万倍压缩算法,有助于昇腾AI计算中心训练大模型成果落地到边缘端和端侧客户,实现大模型产业闭环,提升昇腾生态影响力。
技术挑战
- 策略组合探索:目前针对大模型的压缩主要采用结构优化(如矩阵分解、权值共享、分组卷积、分解卷积等)、量化(伪量化及聚类)、定点化、模型剪枝、模型蒸馏等多种策略的组合。针对稀疏大模型和具体的下游任务,无法自适应地选择一组最优的压缩算法策略,达到压缩率和精度的最优。
- 泛化性不足:目前主流压缩算法主要针对Transformer架构有效,针对Transformer&MoE融合架构的千亿稀疏大模型暂未得到验证。
技术诉求
提供一种针对特定千亿级以上MoE类大模型的万倍压缩算法,要求满足如下条件:
- 对紫东太初文音三模态大模型<512,出题方提供预训练模型与下游任务数据)和神农蛋白质大模型<128,出题方提供预训练模型与下游任务数据)均实现万倍以上的压缩。
- 紫东太初文音三模态大模型和 蛋白质二级结构预测 大模型压缩后,分别执行多模态检索(单边压缩,只压缩Query分支)和 蛋白质二级结构预测 下游任务,使用单卡昇腾Atlas 300T进行推理推理,在下游任务上精度损失均不超过千分之三。
三、约束条件、边界与不足
(一)约束条件
- 所有算法方案必须适配华为昇腾硬件平台,严格使用昇腾亲和算子,禁止引入昇腾不兼容算子;
- 算法需满足明确的性能、压缩比、精度损失量化指标,无理论论证与实际验证的方案无效;
- 模型优化需兼顾通用性,覆盖CV、NLP、大模型等主流AI模型架构,不可仅针对单一模型;
- 方案需区分理论设计与工程实现两类诉求,需分别满足对应验收标准,不可混淆;
- 千亿MoE大模型压缩需限定指定模型(紫东太初、神农蛋白质大模型)与推理硬件,不可偏离指定场景。
(二)边界
- 技术边界:仅聚焦AI模型训练加速、训练后模型压缩、大模型轻量化压缩领域,不涉及模型训练框架底层重构、全新硬件芯片设计;
- 场景边界:仅限昇腾硬件平台部署,不兼容其他非国产算力硬件,聚焦云端训练、边缘/端侧推理落地场景;
- 指标边界:所有技术指标均为硬性门槛,需完全达标,精度损失、压缩比、性能提升比例不可低于要求阈值;
- 模型边界:针对题目指定的ResNet50、BERT、LLaMA2-7B、紫东太初、神农蛋白质大模型等,不拓展至其他未提及模型。
(三)现有不足
- 现有行业算法与昇腾硬件适配性差,冗余计算优化算法易引入不兼容算子,硬件亲和性不足;
- 低数据/无数据场景下模型压缩精度损失控制难度大,高压缩比与高精度难以兼顾;
- 缺乏针对千亿级MoE大模型的专用压缩范式,现有算法压缩倍数有限,泛化能力薄弱;
- 算法通用性有待提升,难以同时适配多类型AI模型,工程化落地验证流程不完善;
- 大模型压缩后单卡推理部署难度大,算力资源消耗与模型性能的平衡方案缺失。
四、核心标签
#昇腾AI算力优化 #AI模型训练加速 #无数据模型压缩 #大模型轻量化部署 #MoE大模型万倍压缩 #国产算力技术攻关 #AI模型冗余计算优化 #训练后量化剪枝 #科技自主可控 #黄大年茶思屋科研攻关
五、后续解题规划
针对本期黄大年茶思屋第19期三大核心难题,后续将通过三篇专题解题方案,逐一攻克对应技术难题:第一篇聚焦硬件亲和去计算冗余训练加速算法,破解昇腾平台训练性能瓶颈;第二篇主攻Data-free/Label-free模型压缩技术,实现数据安全场景下模型高效轻量化;第三篇攻坚千亿级MoE大模型万倍压缩难题,完成超大规模大模型端侧落地技术突破,最终形成完整的解题闭环,全面满足本期题目所有技术诉求与战略需求。
六、全文总结
本期黄大年茶思屋第19期难题,紧扣国家AI产业自主化发展战略,传承黄大年先生科技报国的科研精神,聚焦国产昇腾算力平台下AI模型全流程优化核心痛点,设置训练加速、轻量化压缩、超大规模大模型落地三大技术课题,兼具理论研究价值与工程落地意义。题目明确了严苛的技术指标、硬件适配约束与场景边界,同时直指当前行业内硬件适配差、精度与压缩比失衡、大模型压缩无成熟方案等核心不足。后续将通过三篇专项解题方案,逐一突破各项技术壁垒,既解决本期科研难题,也进一步完善国产AI算力生态算法体系,推动关键核心技术自主创新,践行科技强国、科研报国的核心目标,让前沿AI技术真正实现产业化、普惠化落地。