2025年IEEE TKDE，LLM-QL：多架并行无人机调度方法-洪萨配资

1.摘要

多飞行助手旅行商问题（mFSTSP）多架 UAV 与卡车协同配送，传统调度方法在大规模场景下计算成本高、探索低效，且容易陷入局部最优。本文提出LLM-QL 将 Q-Learning 局部探索与 LLM 对未知环境全局理解结合，用专门设计的提示词把问题建模转为 LLM 易理解形式并生成启发式项指导探索。

2.LLM 增强 Q-Learning 方法

问题建模

mFSTSP 目标是最小化卡车和多 UAV 完成所有配送并返回终点总完成时间：

min ⁡ t c + 1 \min\; t_{c+1}mintc+1

关键约束包括：每个客户只被卡车或某架 UAV 服务一次；卡车从仓库出发并返回终点；每架 UAV 每次任务最多服务一个客户；UAV 飞行时间不超过续航；卡车路径保持连通并消除子回路。

将 mFSTSP 转为序贯决策问题。状态S = ( i , D ) S=(i,D)S=(i,D)表示卡车当前位置和 UAV 状态；动作A = ( j , m ) A=(j,m)A=(j,m)表示选择下一节点j jj和运输方式m mm，其中m = 0 m=0m=0为卡车，m = 1 m=1m=1为 UAV。Q 表Q [ i , j , m ] Q[i,j,m]Q[i,j,m]存储从节点i ii到节点j jj并使用工具m mm累计回报。

Q [ i , j , m ] = Q [ i , j , m ] + α ( R [ i , j , m ] + γ max ⁡ A ′ Q [ j , k , m ′ ] ) − Q [ i , j , m ] (12) Q[i,j,m]=Q[i,j,m]+\alpha\left(R[i,j,m]+\gamma\max_{A'}Q[j,k,m']\right)-Q[i,j,m] \tag{12}Q[i,j,m]=Q[i,j,m]+α(R[i,j,m]+γA′maxQ[j,k,m′])−Q[i,j,m](12)

其中，α \alphaα为学习率，γ \gammaγ为折扣因子。奖励原先取路径距离倒数，距离越短奖励越高。

LLM 增强 Q-Learning

LLM-QL 先分别构造卡车道路距离矩阵和 UAV 欧氏距离矩阵。卡车距离反映真实路网，UAV 距离反映直飞路径。将目标函数、约束、当前状态和 Python 模板输入 LLM，让其生成可执行启发式函数H [ i , j , m ] H[i,j,m]H[i,j,m]。启发式项综合距离、未访问状态、客户优先级、邻近连接度和时间效率，用于指导动作选择。

LLM-QL 的奖励函数为：

R [ i , j , m ] = { 1 T [ i , j , m ] , 若所有约束满足 − ∞ , 若任一约束违反 R[i,j,m]= \begin{cases} \dfrac{1}{T[i,j,m]}, & \text{若所有约束满足}\\ -\infty, & \text{若任一约束违反} \end{cases}R[i,j,m]=⎩⎨⎧T[i,j,m]1,−∞,若所有约束满足若任一约束违反

引入 LLM 启发式后 Q 值更新：

Q [ i , j , m ] ← Q [ i , j , m ] + α ( R [ i , j , m ] + γ max ⁡ A ′ Q [ j , k , m ′ ] ) + H [ i , j , m ] − Q [ i , j , m ] Q[i,j,m]\leftarrow Q[i,j,m]+\alpha\left(R[i,j,m]+\gamma\max_{A'}Q[j,k,m']\right)+H[i,j,m]-Q[i,j,m]Q[i,j,m]←Q[i,j,m]+α(R[i,j,m]+γA′maxQ[j,k,m′])+H[i,j,m]−Q[i,j,m]

每轮训练中，算法按ε \varepsilonε-greedy 策略选择动作，计算 LLM 启发式值并更新 Q 表，直到所有节点访问完成。

3.实验分析

实验使用西雅图城市数据集，包含仓库、客户经纬度和包裹重量。卡车距离采用真实道路网络距离，UAV 距离采用欧氏距离。LLM 使用 ChatGPT-4o，框架不依赖特定模型。

对比方法包括 MILP、2PML 和 MAPPO。

消融实验

消融实验比较有无 LLM 启发式的 Q-Learning。小规模任务中，加入启发式后不一定每次都达到精确最优，但收敛明显更快；大规模任务中，收敛速度相近，但启发式版本给出更准确的总完成时间。两类数据集上结果一致，说明 LLM-QL 具有泛化性。

解质量与问题规模比较

在不同客户规模和 UAV 数量下，LLM-QL 总完成时间最低，说明其能在固定迭代内更快找到更好解。MILP 在小规模可精确求解，但大规模复杂度迅速上升；2PML 受聚类和路径规划两阶段折中影响；MAPPO 虽提高协作效率，但大规模下训练和计算压力较大。

4.结论

LLM-QL通过启发式项减少无效探索并加速收敛。理论上，加入有界启发式不破坏 Bellman 算子压缩性且近似误差有界。实验表明，LLM-QL 在大规模场景中优于 MILP、2PML 和 MAPPO，在总完成时间、运行时间和 UAV 利用率等关键指标上最高提升约 1.35 倍。

7.参考文献

Zhou Q, Wu J, Zhu M, et al. LLM-QL: a LLM-enhanced Q-learning approach for scheduling multiple parallel drones[J]. IEEE Transactions on Knowledge and Data Engineering, 2025.

8.算法辅导·应用定制·读者交流

MuMu模拟器6.0即将上线多ROM版本随心切换

MuMu模拟器官方宣布6.0版本即将发布！双ROM自由切换，安卓12/15随心选，多开适配全面升级，手游运行流畅度大幅提升✨将有效解决新老游戏兼容难题。玩经典怀旧手游直接选用安卓12内核，兼容性拉满。像运营多年的《梦幻西游手…

李华

聚焦企业数字化转型：2026 年度中国小程序开发公司综合实力名单

数字经济时代，小程序已经成为企业打通线上线下、承接私域和做全域经营的重要入口。到 2026 年，市场对小程序服务商的要求也不再停留在“能开发”，而是进一步看技术架构、长期运维、价格透明、跨端生态、合规安全和真实案例能力。本篇继续沿用…

李华

从自研Token到JWT：现代Web应用身份验证演进与安全实践

1. 项目概述：从“alitigertally wtoken”看现代Web应用的身份验证演进最近在梳理一个老项目的技术债时，遇到了一个很有意思的遗留模块，它的内部代号就叫“alitigertally wtoken”。乍一看这个名字，有点像是某种内部黑话或者临时…

李华

8类工业级智能体架构：从反射型到元认知型的工程落地指南

1. 项目概述：这不是AI模型的说明书，而是智能体的“人物志”你有没有发现，最近聊大模型，已经很少只说“ChatGPT多聪明”了？大家更常问的是：“它能不能自动订会议室、查竞品财报、给销售团队生成每日线索简报…

李华

分类变量编码实战：从数据类型诊断到生产级Pipeline

1. 项目概述：为什么“编码”不是简单地把文字变数字？你手头有一份客户满意度调查表，字段里写着“好评”“中评”“差评”；另一份电商订单数据里，“支付方式”列填的是“支付宝”“微信”“银行卡”“货到付款”。你兴冲…

李华

引态科技发布 ACRP 可信能力注册协议，并宣布兼容 Google ARD 生态

Agent 之间互相发现，和 Agent 之间可信协作，中间隔着一整座山。Google 联合 GitHub、NVIDIA 等机构发布了 Agentic Resource Discovery（ARD）协议，解决的是前半段——怎么让世界知道有哪些 Agent 和能力存在。但发现只是…

李华

目录