news 2026/6/21 13:21:30

英伟达开源OmniVinci:仅 9B 模型就拿下多模态冠军,开启全模态机器智能新纪元

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
英伟达开源OmniVinci:仅 9B 模型就拿下多模态冠军,开启全模态机器智能新纪元

OmniVinci 是一个旨在构建全模态 LLM 的系统性方案,它能够联合感知图像、视频、音频和文本。

英伟达推出的OmniVinci开源全模态潜在逻辑模型,为提升机器智能跨模态感知能力带来新突破。该模型在架构上创新提出OmniAlignNet、时间嵌入分组、约束旋转时间嵌入三项关键技术,增强多模态嵌入对齐与时间信息编码。同时,引入数据整理和合成流程,生成大量对话数据。实验表明,不同模态相互促进,模型在多个跨模态任务上性能显著优于Qwen2.5-Omni,且训练样本量大幅减少。此外,还在机器人、医疗等下游应用中展现出全模态优势。

相关链接

  • 模型:https://huggingface.co/nvidia/omnivinci
  • 论文:https://arxiv.org/pdf/2510.15870
  • 代码:https://github.com/NVlabs/OmniVinci
介绍

提升机器智能需要发展出跨多种模态的感知能力,就像人类感知世界一样。英伟达推出的 OmniVinci 旨在构建一个强大的开源全模态潜在逻辑模型 (LLM)。论文仔细研究了模型架构和数据整理方面的设计选择。在模型架构方面,提出了三项关键创新:

  1. OmniAlignNet,用于在共享的全模态潜在空间中增强视觉和音频嵌入之间的对齐;
  2. 时间嵌入分组,用于捕捉视觉和音频信号之间的相对时间对齐;
  3. 约束旋转时间嵌入,用于在全模态嵌入中编码绝对时间信息。

论文引入了一个数据整理和合成流程,生成了 2400 万个单模态和全模态对话。发现在感知和推理过程中,不同模态之间相互促进。模型在 DailyOmni(跨模态理解)上的性能优于 Qwen2.5-Omni,提升幅度为 +19.05;在 MMAR(音频)上提升幅度为 +1.7;在 Video-MME(视觉)上提升幅度为 +3.9,而训练样本量仅为 0.2T,比 Qwen2.5-Omni 的 1.2T 减少了 6 倍。最后,我们在机器人、医疗人工智能和智能工厂等下游应用中展示了全模态优势。

方法概述

论文提出了一种全模态理解的基础模型。通过所提出的全模态对齐机制,将来自视觉、音频和文本模态的信息融合到一个统一的全模态标记序列中。

全模态字幕生成流程。视频被分割成 20 秒的片段。视觉和 音频字幕分别针对每个片段独立生成,但缺乏跨模态上下文,并且包含 错误的理解(模态特异性幻觉)。一个独立的 LLM 执行跨模态校正和 摘要,以生成准确的全模态字幕。

实验结果

训练数据在各种模态中的总体分布饼图,显示了图像(36%)、非语音声音(21%)、语音(17%)、全模态(15%)和视频(11%)的比例。

针对全模态对齐的消融研究。所提出的时间嵌入分组(TEG)、约束旋转时间嵌入(CRTE)和 OmniAlignNet 均能持续获得更优的平均性能。 跨模态的性能。

Omni 基准测试,包括视频音频数据集 Worldsense 和 Dailyomni,以及图像音频数据集 Omnibench。

OmniVinci展现出强大的视觉和听觉感知能力,能够处理单模态或多模态场景。该模型还支持音频提示和输出。

结论

OmniVinci 是一个旨在构建全模态 LLM 的系统性方案,它能够联合感知图像、视频、音频和文本。论文讨论了包括 OmniAlignNet、时间嵌入分组和约束旋转时间嵌入在内的架构创新,并结合了增强的数据和训练方案。OmniVinci 展现了前沿的全模态性能,降低了训练和推理成本,并改进了下游智能体应用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 18:55:55

springboot基于Java技术的新闻发布系统 机构管理系统设计与实现

目录摘要项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作摘要 随着信息化技术的快速发展,新闻发布和机构管理系统的需求日益增长。基于SpringBoot框架的新闻发布系统结合机构管理功能&#xff…

作者头像 李华
网站建设 2026/6/20 22:13:53

springcloud基于微服务架构的网上人才求职招聘系统的设计与实现

目录 摘要 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 摘要 随着互联网技术的快速发展,传统招聘模式已无法满足企业和求职者的高效匹配需求。基于微服务架构的网上人才求职招聘系统采用Sp…

作者头像 李华
网站建设 2026/6/18 4:35:55

2026 年数据与人工智能的七项预测

本文是我根据与数百位数据领导者的对话、我们在 Sifflet 的工作模式以及整个行业正在发生的巨大变革所看到的趋势。支撑人工智能的基础设施正在被彻底重建。以下是哪些部分会改变,哪些部分不会改变。每年我们都会看到关于 SQL 消亡、Lakehouse 架构崛起,…

作者头像 李华
网站建设 2026/6/18 11:38:23

小白必看:INF文件数字签名入门指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向初学者的INF文件签名教学工具,通过交互式教程逐步指导用户:1)什么是INF文件签名 2)为什么需要签名 3)如何检查签名 4)简单修复方法。工具应包含…

作者头像 李华
网站建设 2026/6/13 0:59:51

基于ShuffleNetV2的YOLOv5主干重构指南:模型压缩、加速部署与精度评估

文末含资料链接和视频讲解! 文章目录 一、轻量化网络技术背景 1.1 移动端部署的挑战 1.2 ShuffleNet系列演进 二、ShuffleNetV2模块深度解析 2.1 通道混洗机制 2.2 Shuffle_Block结构 三、YOLOv5集成ShuffleNetV2全流程 3.1 代码修改实战 步骤1:common.py新增模块 步骤2:yo…

作者头像 李华
网站建设 2026/6/18 13:44:51

YOLO11部署实战:基于云平台的一键启动方案

YOLO11部署实战:基于云平台的一键启动方案 YOLO11是目标检测领域中的最新演进成果,延续了YOLO系列“又快又准”的核心优势。相比前代模型,它在架构设计上进一步优化了特征提取与多尺度融合机制,在保持高推理速度的同时显著提升了…

作者头像 李华