写在前面:为什么要把 InternVL 和 YOLO 放在一起?
2026年上半年的计算机视觉生态有一个非常明显的趋势:纯检测模型和纯理解模型正在走向深度融合。
一方面,Ultralytics 在今年1月正式发布了 YOLO26,在 CPU 推理速度上比 YOLO11 提升了最高 43%,并且原生支持端到端无 NMS 推理,让边缘端部署变得前所未有的简单。另一方面,上海人工智能实验室在2月发布了 InternVL3.5,其最大模型 InternVL3.5-241B-A28B 在通用多模态、推理、文本和智能体任务上达到了开源 MLLM 的 SOTA 水平,缩小了与 GPT-5 等商业模型的差距。
这两个模型各自单打独斗都很强,但真正有意思的事情发生在它们被组合起来的时候:用 YOLO 做精确的区域检测和定位,用 InternVL 做开放词汇的语义理解和推理——这就是"联合推理"的核心价值。
这篇教程将从零开始,带你完成一整套联合推理环境的搭建。我们不仅会写代码,更会深入理解每一步"为什么要这样做"。
在开始动手之前,先花几分钟了解一下两个主角各自的技术现状,这会帮助你在后续配置中做出更合理的决策。
第一章 2026 多模态模型与目标检测技术全景速览
1.1 InternVL 家族:半年内的三个重磅发布
如果你在2025年底关注过 InternVL,可能会对