news 2026/4/28 4:39:36

【舱驾】- 多模态基础知识01

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【舱驾】- 多模态基础知识01

洞察

智舱,智驾,发展到目前,叫的比较欢还属AI座舱,舱驾融合,多模态融合,端到端,VLA等。智驾VLA以及AI座舱的前提基础技术还属于多模态融合技术,AI智能座舱融合的是xMS、语音;智驾VLA多模态融合的是车端感知(雷达,影像,语音,Sensor等)。

命题

最基础的多模融合应该采用什么技术框架?如何做到数据同步,统一链路,统一接口?

解题

1. 采用MediaPipe架构,构建多模态感知-生成一体化

MediaPipe是一款专为各类平台上的高性能、实时感知流程打造的专用框架。

MediaPipe介绍:

MediaPipe Solutions 提供了一套库和工具,可帮助您在应用中快速应用人工智能 (AI) 和机器学习 (ML) 技术。您可以立即将这些解决方案插入到应用中,根据自己的需求进行自定义,并在多个开发平台上使用它们。MediaPipe Solutions 是 MediaPipe 开源项目的一部分,因此您可以进一步自定义解决方案代码,以满足您的应用需求。MediaPipe Solutions 套件包括以下内容:

可用的解决方案

MediaPipe 解决方案可在多个平台上使用。每种解决方案都包含一个或多个模型,您还可以为某些解决方案自定义模型。下表显示了每种受支持的平台可用的解决方案,以及是否可以使用 Model Maker 自定义模型:

解决方案AndroidWebPythoniOS自定义模型
LLM Inference API
对象检测
图片分类
图片分割
交互式分割
手部地标检测
手势识别
图片嵌入
人脸检测
人脸特征点检测
姿势地标检测
图片生成
文本分类
文本嵌入
语言检测器
音频分类

Google原文:https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2

Github链接:https://github.com/google-ai-edge/mediapipehttps://github.com/google-ai-edge/mediapipe

第三方介绍:https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988

2. 采用分离方案

影像,音频,文本采用独立的架构,基于系统原生基础框架。

比如:Android系统的Camera子系统,Audio子系统

3. 采用芯片原厂架构

比如NVIDIA, DRIVE OS中间件

4. 多模数据如何融合?

拿智驾为例:当前阶段以特征融合为主,基于融合方案,提高视觉、雷达等多源数据实时协同处理能力。

多模态特征融合引用链接:

https://blog.csdn.net/weixin_43840280/article/details/118070317https://blog.csdn.net/weixin_43840280/article/details/118070317

总结

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/26 7:54:26

LobeChat能否预测用户行为?数据洞察新视角

LobeChat:打开用户行为洞察之门的AI交互平台 在AI助手几乎无处不在的今天,我们早已习惯了向Siri提问天气、让Copilot生成代码。但你有没有想过——这些对话背后,系统是否真的“理解”你在想什么?或者说,它能不能预判你…

作者头像 李华
网站建设 2026/4/23 22:14:19

【私有化Dify SSL配置终极指南】:手把手教你实现安全通信与证书部署

第一章:私有化 Dify SSL 配置概述在企业级部署 Dify 时,启用 SSL 加密是保障数据传输安全的关键步骤。私有化部署环境中,通常需要通过自定义域名与受信证书实现 HTTPS 访问,以满足内部合规性与外部访问的安全要求。配置 SSL 不仅能…

作者头像 李华
网站建设 2026/4/25 19:11:06

LobeChat能否用于生成SEO标题?搜索引擎优化利器

LobeChat能否用于生成SEO标题?搜索引擎优化利器 在内容为王的时代,一个好标题的价值不言而喻——它不仅是用户点击的第一动因,更是搜索引擎判定内容相关性的关键信号。然而,面对每天需要产出多篇文章的运营团队,人工构…

作者头像 李华
网站建设 2026/4/25 21:25:14

OpenAI gpt-oss-20b发布:部署与优化全指南

OpenAI gpt-oss-20b部署与优化实战指南 你有没有遇到过这样的困境:想用大模型做本地推理,却发现动辄上百GB显存需求根本无法落地?或者企业希望私有化部署AI能力,却被闭源模型的授权限制卡住脖子?就在最近,O…

作者头像 李华
网站建设 2026/4/27 8:47:34

适当过滤Window event log 输入Splunk

1: 如果window server 比较多的话,那么eventlog 是会很多的,那么可以根据event code 来过滤,具体的设置: 先去DS (deployment server 上去查到这个index 的inputs.conf 文件,然后 index=abc EventCode IN (4658,4656,4690) | timechart span=1m count by EventCode 可以…

作者头像 李华
网站建设 2026/4/27 8:12:06

【企业级数据治理新范式】:基于混合检索的Dify数据源管理实战手册

第一章:企业级数据治理的演进与挑战随着数字化转型的深入,企业级数据治理已从传统的数据管理演变为支撑业务决策、合规运营和智能化创新的核心战略。早期的数据治理主要聚焦于数据质量与元数据管理,而如今则需应对多源异构数据、实时处理需求…

作者头像 李华