一键收藏！中选六大顶会京东零售年度 AI 论文精选合集（内含福利）-洪萨配资

AI圈的前沿剧透，科技干货的首发阵地，其实都藏在顶会论文里。今年，京东零售技术有近50篇论文，被NeurIPS、ACL、SIGIR等国际顶级学术会议收录。我们从中精选了15篇具有代表性的论文，覆盖大型语言模型训练优化、多模态内容生成与优化、因果推断与点击率预估、信息检索新范式以及模型高效适配等多个关键方向研究，制作成这份合集，和你一起关注前沿技术趋势、共同探索应用落地的更多可能。欢迎分享给你身边的朋友们。

01、TANDEM：基于孪生网络的双层数据混合优化

论文类型：NeurIPS 2025

论文下载：https://openreview.net/pdf?id=szBFUtBzWP

一句话介绍：一种适用于 LLM 训练的多功能数据混合比例优化框架，兼具理论和实践优势。

论文简介：大型语言模型的能力很大程度上取决于各个领域的训练数据。优化特定领域数据的混合比例可以建模为双层优化问题。本文将该双层优化问题简化为单层惩罚形式，并使用一组孪生模型进行求解：一个使用原始数据训练的代理模型和一个使用额外数据训练的动态更新的参考模型。本文提出的方法，基于孪生模型的双层数据混合比例优化 (TANDEM)，通过孪生模型的差异来衡量数据有效性：能从额外数据中获益更多的领域其权重应该被上调。与先前的方法相比，TANDEM 提供了理论保证和更广泛的适用性。此外，本文的双层视角为模型训练数据配比调整提供了新的场景，如数据受限场景和监督微调。在这些场景中，优化数据混合比可以显著提高性能。大量实验验证了 TANDEM 在所有场景下的有效性。

02、LoRA的幅值理论与初始化策略改进

论文类型：NeurIPS 2025

论文下载：https://openreview.net/pdf?id=s4LnWgjacg

一句话介绍：本文揭示了LoRA调参的第一性原理“幅值原则”，提出了一种简洁高效的初始化方案 LoRAM，实现了更好的收敛效果。

论文简介：低秩适应 (LoRA) 为大型模型的微调提供了一种参数高效的范式。尽管最近的谱初始化方法（如PiSSA）相较于标准的零积初始化在收敛性和性能上有所提升，但其额外的计算和存储开销却降低了效率。在本文中，我们将更新幅度（update magnitude）确立为 LoRA 改进的根本驱动力，并提出了 LoRAM——一种以幅度为驱动的初始化方案，该方案在避免上述低效问题的同时达到了与谱方法相当的效果。我们的主要贡献包括三点： (i) 权重更新的幅度决定了收敛性。我们证明低秩结构本质上限制了更新幅度，从而将学习率、缩放因子及初始化的超参数调整统一为优化幅度调节的机制。 (ii) 谱初始化的成功得益于幅度放大。我们揭示了谱分量的“知识驱动”优势，实际上主要源于权重更新幅度的提升。 (iii) 一种新颖且紧凑的初始化策略 LoRAM，它利用预训练权重的幅度来缩放确定性正交基，从而模拟谱增益。大量实验表明，LoRAM 是一个强有力的基线方法，在保留 LoRA 全部效率的同时，在各项基准测试中均能匹敌或超越谱初始化方法。

03、京东零售广告创意：统一的布局生成和评估模型

论文类型：ACM Multimedia 2025

论文下载：https://arxiv.org/pdf/2508.02374

一句话介绍：通过统一生成器、类人布局评估器与动态边距对齐机制的协同，实现了多任务布局生成、精准人类感知评估及生成 - 评估闭环优化。

论文简介：布局生成在电商图片的设计中起到至关重要的作用。当前的布局生成方法在能力上具有任务特定性，并且评估标准与人类感知不一致，导致其应用范围有限且评估效果不佳。为了解决这些问题，Uni-Layout实现了统一生成、模拟人类的评估以及二者之间的对齐。针对通用生成，该框架将各种布局任务整合到一个统一的分类系统中，并开发了一个统一的生成器，通过自然语言提示处理背景或元素内容受限的任务。为了引入人类反馈以有效评估布局，我们构建了Layout-HF100k，这是首个包含10万个人工标注布局的大规模人类反馈数据集。基于Layout-HF100k，我们引入了一种模拟人类的评估器，该评估器结合视觉和几何信息，采用思维链机制进行定性评估，并通过信心估计模块提供定量测量。为了更好地对齐生成器和评估器，我们采用动态边距偏好优化（DMPO）技术，将二者整合为一个协调系统，以更好地符合人类判断。

04、一种用于电子商务查询分类的半监督可扩展统一框架

论文类型：ACL 2025

论文下载：https://aclanthology.org/2025.acl-industry.88.pdf

一句话介绍：论文提出了一种半监督可扩展统一框架，通过整合知识、标签和结构三个可插拔的增强模块，弥补先验信息不足并统一了QP各类子任务。

论文简介：query意图预测包含类目、品牌等分类任务，对电子商务应用至关重要。电商query通常简短且缺乏上下文信息，标签间的信息无法利用，导致建模所需的先验信息不足。大多数现有的工业级查询分类方法依赖于用户后续的点击行为来构建训练样本，从而陷入了马太效应的恶性循环。此外，查询分类的各个子任务缺乏统一的框架，导致算法优化效率低下。我们提出了一种半监督可扩展统一框架（SSUF），该框架包含多个增强模块，用于统一查询分类任务。知识增强模块利用世界知识来增强查询表示，解决查询信息不足的问题。标签增强模块利用标签语义和半监督信号来降低对后验标签的依赖。结构增强模块基于复杂的标签关系来增强标签表示。每个模块都具有高度可插拔性，可以根据每个子任务的需要添加或移除输入特征。经过大量的离线和在线 A/B 实验，结果表明 SSUF 的性能明显优于业界最先进的模型。

05、超越Logits：对齐特征动力学的知识蒸馏

论文类型：ACL 2025

论文下载：https://aclanthology.org/2025.acl-long.1125.pdf

一句话介绍：从ODE微分方程的视角设计LLM蒸馏方法，实现学生模型对教师模型特征动力学的全面模仿以提升模型蒸馏效果。

论文简介：知识蒸馏（KD）将大型语言模型（LLM，也称为教师模型）压缩成轻量级版本，从而实现高效的推理和下游应用。然而，现有方法主要通过匹配学生/教师模型的最终输出分布来实现这一目标。基于Transformer模型可以被视为在整数时间步长（对应于层索引）上离散化常微分方程（ODE）的视角，其中中间特征在各层之间演化，我们认为有效的知识蒸馏需要匹配教师模型和学生模型之间的整个特征动态，我们称之为特征动态蒸馏（FDD）。这种匹配涉及匹配特征轨迹及其一阶导数，而不仅仅是最终状态。我们的方法在原始知识蒸馏目标函数的基础上增加了两个损失项：逐层特征知识蒸馏（匹配离散化的特征轨迹）和层特征增量知识蒸馏（匹配相邻层之间特征的一阶变化）。在各种任务上的大量实验验证了所提蒸馏方法的有效性。

06、基于图同构网络的群体建模在点击率预测中的应用

论文类型：SIGIR 2025

论文下载：https://dl.acm.org/doi/epdf/10.1145/3726302.3731936

一句话介绍：提出基于图同构网络的群体建模方法，精准捕捉高阶用户-物品交互，有效缓解冷启动问题并提升泛化能力。

论文简介：点击率预估任务通常会面临冷启动问题，即新用户因历史行为数据不足而难以进行准确预测。近期研究尝试通过编码器-解码器网络，基于活跃用户数据为冷启动用户生成虚拟行为表征。然而，现有方法存在两大缺陷：对活跃用户行为的编码技术过于简单化，且直接使用虚拟行为表征会导致用户兴趣表达受限、模型泛化能力不足。为解决这些问题，我们提出创新性的基于图同构网络的群体建模方法。该方案通过GIN网络有效捕捉用户-物品高阶交互关系，从而更精细地刻画用户多样化兴趣。结合群体建模策略，可显著减少嵌入构建偏差，增强模型泛化能力。我们在公开数据集和工业数据集上的实验表明，相较现有方法，新方案对活跃用户和冷启动用户均带来显著效果提升。

07、ADORE：大模型自动化驱动，重塑电商相关性

论文类型：SIGIR 2025

论文下载：https://arxiv.org/pdf/2512.02555

一句话介绍：论文提出了基于思维链与强化学习的相关性大模型，自动生成难样本与对抗样本，并通过特征迁移增强浅层模型，显著提升电商相关性效果。

论文简介：针对电商相关性判别场景所面临的难样例数据稀缺，线上浅层模型推理判别能力较弱的问题，本文提出了基于思维链推理的相关性大模型，自动分析在线曝光商品并生成领域特定的难样本，并通过KTO强化学习算法自动对齐线上用户行为。此外，还设计了错误类型感知的生成大模型，根据线上模型易错场景自动生成对抗性样本。最后，为了将大模型知识迁移到线上浅层模型，我们从COT分析中结果中提取关键属性特征显式增强学生模型的表示与推理能力。大规模实验及在线AB实验表明，ADORE在相关性和广告收入等关键指标上显著优于其它方法，为工业级相关性建模提供了资源高效的新范式。

08、面向电子商务搜索广告的多目标对齐竞价词生成模型

论文类型：SIGIR 2025

论文下载：https://arxiv.org/pdf/2506.03827

一句话介绍：论文提出了一种多目标对齐的买词生成模型，通过利用判别器针对相关性、真实性和广告收入的反馈信号来指导生成器训练同时优化这三个关键目标。

论文简介：针对电商搜索广告中长尾查询难以精确匹配商家买词（Bidwords）从而导致广告召回不足的问题，本文指出传统的查询改写方法往往无法同时兼顾改写后的相关性、真实性以及最大化平台收益。为此，论文提出了一种多目标对齐的买词生成模型（MoBGM），该模型包含判别器、生成器和偏好对齐模块。通过利用判别器针对相关性、真实性和广告收入的反馈信号来指导生成器训练，MoBGM 能够同时优化这三个关键目标。离线与在线实验结果均表明该算法显著优于现有最先进（SOTA）方法，且在实际部署中展现了良好的鲁棒性并创造了巨大的商业价值。

09、基于因果最优传输的后验信息建模用于CTR预测

论文类型：SIGIR 2025

论文下载：https://dl.acm.org/doi/10.1145/3726302.3731942

一句话介绍：针对点击率预测中点击后特征不可得问题，提出因果最优传输框架（COT），通过伪特征生成和因果分布调整，实现训练-推断一致性并提升模型性能。

论文简介：精准的点击率（CTR）预测对在线广告至关重要，其依赖于浏览历史、用户画像等常规特征，以及广告位、页面行为等post-event特征。然而，post-event特征在推断阶段不可得，常面临训练-推断不一致性和低覆盖率问题，尤其是停留时间等仅存在于被点击item的点击后特征。为解决这些挑战，我们提出因果最优传输框架（Causal Optimal Transport, COT），其创新性体现在：(1) 通过半监督伪标注生成点击后伪特征；(2) 利用因果分布调整器（Causal Distribution Shaper, CDS）实现精准的因果特征分布生成；(3) 通过最优传输优化特征分布，最小化分布差异以促进知识迁移。基于真实数据的实验验证了COT在通过改进用户兴趣建模和偏差缓解来提升CTR预测方面的优越性。理论分析证明了该框架的鲁棒性。

10、层次化用户长期行为建模在点击率预估中的应用

论文类型：SIGIR 2025

论文下载：https://dl.acm.org/doi/epdf/10.1145/3726302.3730207

一句话介绍：提出HBM架构，通过分层粗/细兴趣学习端到端建模用户行为，优化现有的两阶段长序列建模。

论文简介：在工业界，点击率（CTR）预测的最先进方法主要依赖于基于 Transformer 的网络及其变体。然而，随着用户行为序列变长，在受限的推理时间内采用自注意力网络进行 CTR 预测面临重大挑战。为解决这一问题，主流方法采用经典的两阶段范式：通用搜索单元（GSU）用于从长期行为中快速检索相关物品，精确搜索单元（ESU）用于对 GSU 筛选出的物品应用有效的多头目标注意力（MHTA）。这些两阶段算法存在一定局限性：首先，GSU 需要为不同的目标物品检索不同的目标子序列，这使得 ESU 只能采用次优的 MHTA 网络，而非更有效的基于 Transformer 的网络；其次，GSU 仅从用户行为序列中检索部分物品，忽略了用户兴趣的演变以及不同兴趣点之间的关联。

为此，本文提出一种端到端层次化用户长期行为建模网络用于 CTR 预测（HBM）。具体而言，首先采用多兴趣路由层将用户的长期行为分流到多个聚合的兴趣簇中；此外，引入精细兴趣学习网络，从初始聚合表示中筛选出 top-k 个兴趣；随后，利用 Transformer 网络对与这些 top-k 兴趣相关的用户行为序列进行精细化建模，同时在粗粒度层面捕捉不同用户兴趣之间的内在关联。在京东推荐平台的在线 A/B 有很大的提升。

11、京东零售广告创意：引入场域目标的创意图片生成

论文类型：WWW 2025

论文下载：https://arxiv.org/pdf/2502.06823

一句话介绍：通过多模态大型语言模型（MLLMs）生成电商广告图片，以优化点击率（CTR）为目标，并通过强化学习微调模型以提高生成图片的CTR，确保背景与商品特征一致。

论文简介：在电商平台中，广告图片对于吸引用户注意力和提高广告效果至关重要。大多数现有的方法在为商品生成背景时主要关注美学质量，这可能无法实现令人满意的在线表现。为了解决这一局限性，我们探索使用多模态大型语言模型（MLLMs）来生成广告图片，并将优化点击率（CTR）作为主要目标。首先，我们构建了针对性的预训练任务，并利用大规模的电商多模态数据集，为MLLMs提供广告图片生成任务的初始能力。为了进一步提高生成图片的CTR，我们提出了一种新颖的奖励模型，通过强化学习（RL）对预训练的MLLMs进行微调，该模型能够联合利用多模态特征并准确反映用户的点击偏好。同时，我们开发了一种以商品为中心的偏好优化策略，以确保微调后生成的背景内容与商品特征一致，从而增强广告图片的整体相关性和效果。大量实验表明，我们的方法在在线和离线指标上均达到了最先进的性能。

12、生成式召回对齐新范式GRAM

论文类型：WWW 2025

论文下载：https://dl.acm.org/doi/epdf/10.1145/3701716.3715228

一句话介绍：本文提出一个电商检索新范式 GRAM，通过生成共享标识符与对齐机制，解决了语义偏差并显著提升召回效率。

论文简介：针对传统检索方法难以利用通用知识、且现有基于LLM的检索方法存在“查询-商品”语义分布不一致导致召回效率低的问题，这篇论文提出了一种名为GRAM（生成式检索与对齐模型）的新型电商检索范式。

GRAM通过联合训练查询和商品的文本信息来生成共享文本标识码，有效弥合了两者间的语义鸿沟，并利用协同对齐策略与查询-商品评分机制最大化了检索效率与质量；大量离线及在线A/B测试均证实，GRAM在性能上显著优于传统模型及最新的生成式检索模型，证明了其在工业应用中的有效性。

13、一种用于粗排点击率预估的全空间无偏因果推断框架

论文类型：WWW 2025

论文下载：https://dl.acm.org/doi/epdf/10.1145/3701716.3715210

一句话介绍：UECF 框架通过伪标签生成（解决未曝光样本标签缺失）、自动样本选择（过滤噪声）、全空间因果学习（修正 SSB），实现了粗排阶段的无偏 CTR 估计

论文简介：在线广告系统广泛采用先进推荐算法优化点击率（CTR）并提升收益，但粗排阶段常面临样本选择偏差（SSB）问题：CTR模型基于精排反馈训练，却应用于分布不同的粗排阶段，带来预估偏差的同时削弱广告策略有效性。现有方法依赖经验标签生成和随机采样，未能根本解决偏差，反而引入额外误差。针对此，本文提出无偏反事实因果CTR预估框架，包含两大创新：1）特征级无偏标签生成模块，充分利用全空间样本（含未曝光数据）；2）自动化样本选择模块，平衡建模精度与计算效率。理论证明该框架在全空间内保持无偏性，离线实验与A/B测试显示，相比现有先进方法，模型在公开及工业数据集上的AUC指标显著提升。

14、AutoPP: 自动化商品海报生成与优化

论文类型：AAAI 2025

论文下载：https://arxiv.org/pdf/2512.21921

一句话介绍：通过生成器统一设计背景/文案/布局，优化器利用IDPO算法数据驱动迭代，显著提升创意效率与点击率

论文简介：商品海报通过极具冲击力的视觉设计与信息丰富的文字内容相结合，突出产品特色并有效捕捉消费者注意力。然而传统人工设计方式不仅创意产出效率低下，基于线上效果的手动调优更是耗费大量资源。为此，我们推出全自动海报生产优化系统AutoPP，该系统核心由两大模块构成：生成器仅需输入商品基础信息，即可通过统一设计模块协同推理海报三大要素（背景/文案/布局）的有机组合，再经由要素渲染模块将各要素编码为条件令牌，实现高效可控的海报输出。优化器则基于生成结果，通过要素替换对比获取细粒度CTR数据，采用孤立直接偏好优化算法（IDPO）精准归因点击率提升动因，完成数据驱动的自动化迭代。

15、从假设到前提：基于LLM的选择性符号翻译逆向逻辑推理

论文类型：AAAI 2025

论文下载：https://arxiv.org/pdf/2512.03360v1

一句话介绍：本文提出了一种新颖的假设驱动逆向逻辑推理框架HBLR，通过高置信度符号转换与逆向演绎相结合的方式，显著提升了语言模型的推理准确性与效率。

论文简介：逻辑推理是自然语言理解的核心挑战，也是人工智能的基本能力，是科学发现、数学定理证明和复杂决策的基础。尽管大型语言模型（llm）取得了显著的进步，但大多数当前的方法仍然依赖于前向推理范式，从前提到结论逐步生成基本原理。然而，这种方法往往存在推理路径冗余、步骤幻觉、语义漂移等问题，导致推理效率低下和不可靠。在本文中，我们提出了一个新的框架，假设驱动的后向逻辑推理（HBLR）。

其核心思想是将自信感知的符号翻译与假设驱动的逆向推理相结合。在翻译阶段，只有高置信区间被转换为逻辑形式，如一阶逻辑（FOL），而不确定的内容则保留在自然语言中。翻译反射模块通过评估符号输出并在必要时将有损输出恢复到文本，进一步确保语义保真度。在推理阶段，HBLR通过假设结论为真并递归验证其前提来模拟人类演绎思维。推理反射模块进一步识别和纠正有缺陷的推理步骤，增强逻辑一致性。在五个推理基准上进行的大量实验表明，HBLR在准确性和效率方面始终优于强基线。