Meta推出Tuna模型：一个AI既能看懂图片又能画画的神奇系统-洪萨配资

这项由Meta公司BizAI团队领衔，联合香港大学、滑铁卢大学等多个机构的研究团队开发的Tuna模型，于2025年1月发表在arXiv预印本平台上，编号为arXiv:2512.02014v1。这个名为Tuna的人工智能系统就像一个既会看画又会画画的全能艺术家，它能够同时理解图片视频的内容，还能根据文字描述创造出新的图像和视频。

在人工智能的世界里，大多数系统就像专业分工很细的工匠，有些只会"看"（理解图像内容），有些只会"画"（生成图像）。但现实生活中，我们人类既能欣赏一幅画的美妙，又能拿起画笔创作新作品。Tuna模型的出现，就是要让AI也具备这种"文武双全"的本领。

研究团队面临的最大挑战，就像是要训练一个学生既擅长数学又擅长绘画。传统方法通常是分别训练两套不同的"大脑"系统，一套专门用来理解图像，另一套专门用来生成图像。但这样做就像让学生用两个完全不同的思维方式学习，不仅效率低下，还容易出现"左脑"和"右脑"不协调的问题。

Tuna模型的核心创新在于建立了一个统一的视觉表示空间，这就好比为AI创造了一种通用的"视觉语言"。无论是理解图像还是创建图像，AI都使用这同一套"语言"来处理信息。这种方法的巧妙之处在于，它让AI的理解能力和创作能力能够相互促进，就像一个画家通过欣赏名画来提升自己的绘画技巧一样。

一、Tuna如何实现"看懂"和"会画"的统一

Tuna模型的工作原理可以比作一个高级的翻译系统。当它看到一张图片时，首先会用一种特殊的编码器（类似于VAE编码器）将图片转换成一种数字化的"密码"。这个过程就像把一幅油画转换成一串数字代码，虽然看起来完全不同，但包含了原画的所有重要信息。

接下来，Tuna使用另一个编码器（称为表示编码器）来进一步处理这些数字代码，提取出图像的语义信息。这个步骤就像一个熟练的艺术评论家，能够从技术细节中读出画作的深层含义和艺术价值。这种双重编码的设计让Tuna能够既保留图像的精确细节，又理解其抽象含义。

当需要生成新图像时，Tuna会逆转这个过程。它根据文字描述在统一的表示空间中创造出相应的数字表示，然后通过解码器将这些抽象表示转换回具体的图像。整个过程就像一个画家听到客户的要求后，先在脑海中构思画面，然后用画笔将想象变成现实。

这种统一的处理方式带来了显著的优势。传统的分离式方法就像让两个完全不相识的专家分别负责看画和画画，他们各自使用不同的标准和方法，很难协调一致。而Tuna的统一方法就像训练一个全能的艺术家，他用同一套美学标准来欣赏和创作，自然能够达到更好的协调效果。

研究团队发现，当他们让Tuna同时学习理解和生成任务时，这两种能力会相互促进。理解能力帮助生成更有意义的图像，而生成过程中的创造性思考也提升了对图像内容的理解深度。这种协同效应就像学习音乐的人发现，练习弹奏乐曲能帮助更好地欣赏音乐，而深入欣赏音乐作品又能提升演奏技巧。

二、三阶段训练让AI从"学徒"成长为"大师"

Tuna的训练过程就像培养一个艺术家的完整教育历程，分为三个渐进的阶段。每个阶段都有其特定的学习目标和重点，确保AI能够稳步提升其多模态能力。

第一阶段可以比作艺术学院的基础课程。在这个阶段，研究团队主要训练Tuna的视觉表示能力和基础生成能力。他们让AI学习如何描述图像内容（图像标注）和如何根据文字创造简单图像（文本到图像生成）。这就像让初学者先学会基本的素描技巧和色彩搭配，为后续的高级创作打下坚实基础。

在这个阶段，研究团队采用了一种巧妙的策略：他们冻结了语言模型部分（相当于AI的"大脑皮层"），专门训练视觉处理和生成模块。这样做的好处是让AI能够专注于建立视觉理解和创作的基本联系，而不会被复杂的语言推理干扰。这个过程类似于在学习绘画之初，先专注于手眼协调和基本技法，而不急于表达复杂的思想。

第二阶段就像艺术教育的综合提升期。研究团队解冻了整个模型，让所有组件都参与学习。在这个阶段，Tuna不仅要继续练习基础的图像理解和生成，还要学习更复杂的任务，比如根据指令编辑图像和理解视频内容。这个阶段的训练就像让学生从临摹转向创作，从单纯的技法练习转向表达个人理解和创意。

第三阶段相当于专业艺术家的实战训练。研究团队使用精心挑选的高质量数据对模型进行最终的微调。这些数据包括复杂的图像编辑任务、详细的图像和视频理解指令，以及高质量的生成任务。这个阶段就像让即将毕业的艺术学生接受导师的个别指导，通过处理具有挑战性的实际项目来完善技艺。

值得注意的是，研究团队在训练过程中采用了不同的学习率和优化策略。在早期阶段使用较高的学习率来快速建立基本能力，在后期阶段降低学习率来精细调节模型性能。这种策略就像学习任何技能时的自然过程：初学时需要大步快跑掌握基础，精进时需要慢工细活追求完美。

三、技术架构：构建AI的"视觉大脑"

Tuna的技术架构就像一个精密的视觉处理工厂，每个组件都有其特定的功能和作用。整个系统的核心是创建统一的视觉表示，这个过程可以比作将不同格式的原材料加工成标准化的半成品，再根据不同需求制造出各种最终产品。

当一张图片或视频输入到Tuna系统时，首先会经过VAE编码器的处理。这个编码器就像一台精密的扫描仪，它不是简单地记录图像的每个像素，而是将图像压缩成一种包含核心信息的潜在表示。对于图像，这种压缩比例是16倍，也就是说原本需要大量数据表示的图像现在可以用更紧凑的形式来表达。对于视频，压缩更加显著，空间上压缩16倍，时间上压缩4倍，这样可以大大提高处理效率。

接下来，这些潜在表示会进入表示编码器进行进一步处理。研究团队选择了SigLIP 2作为这个编码器的基础，这是一个经过大量数据训练的视觉理解模型。但是，他们对原始的SigLIP 2进行了巧妙的改造。原本的SigLIP 2是为处理原始图像设计的，使用16×16像素的图像块作为基本单位。但现在需要处理的是已经压缩过的潜在表示，所以他们将输入层改为1×1的patch embedding，这样就能完美匹配VAE编码器的输出格式。

对于视频处理，Tuna采用了一种特别聪明的策略。由于视频包含大量的帧，如果直接处理会导致序列过长，计算负担沉重。因此，研究团队使用了基于窗口的注意力机制。他们将视频的时间维度重新整理到批次维度中，让表示编码器能够独立处理每4帧的窗口。这种方法就像将一部长电影分成若干短片段分别分析，既保持了处理效率，又不丢失重要信息。

处理完成后，系统会在视觉表示前添加一个时间步标记。这个标记就像给每个处理阶段贴上标签，告诉后续的处理模块当前处理的是哪个阶段的信息。然后，视觉表示会与文本标记合并，一起输入到大型语言模型中进行联合处理。

在处理不同任务时，Tuna使用不同的注意力掩码策略。对于理解任务，语言部分使用因果掩码（只能看到前面的信息），而视觉部分使用双向掩码（可以看到前后的信息）。这种设计模仿了人类处理信息的方式：在思考和表达时我们是逐步推进的，但在观察图像时我们可以全局把握。

对于生成任务，系统会使用一个专门的流匹配头来预测速度场。这个组件采用了与主要语言模型相同的transformer架构，但加入了时间步条件化机制（AdaLN-Zero）。这种设计确保生成过程既能够利用语言模型的强大推理能力，又能够精确控制生成的细节和风格。

四、实验结果：全面超越专门化系统

Tuna在各项测试中的表现就像一个多才多艺的全能选手，不仅在综合能力上出众，在单项技能上也毫不逊色于专业选手。研究团队设计了全面的评估体系，涵盖了图像理解、图像生成、图像编辑、视频理解和视频生成等多个方面。

在图像理解任务上，Tuna展现出了令人印象深刻的性能。在九个不同的评测基准上，包括通用视觉问答、知识密集型任务和文本中心任务，Tuna都取得了同规模模型中的最佳成绩。特别是在MMStar基准测试中，7B参数的Tuna模型达到了61.2%的准确率，在OCRBench（文字识别理解）测试中更是取得了74.3%的高分。这些成绩表明Tuna不仅能理解图像的视觉内容，还能准确识别和理解图像中的文字信息。

更令人惊喜的是，Tuna甚至在某些任务上超越了专门为理解任务设计的模型。这就好比一个既会演奏又会作曲的音乐家，他的演奏水平不仅不输给专业演奏家，有时甚至更胜一筹，因为作曲经验让他对音乐有了更深层的理解。

在图像生成方面，Tuna同样表现出色。在GenEval测试中，1.5B参数的Tuna模型获得了0.88的综合分数，7B模型更是达到了0.90的优异成绩。这个测试评估AI生成图像的多个维度，包括单个物体生成、多物体组合、计数准确性、颜色表现、位置关系和颜色属性等。Tuna在几乎所有细分项目上都表现优秀，特别是在文本渲染质量方面展现出了突出优势。

在更具挑战性的DPG-Bench和OneIG-Bench测试中，Tuna继续保持领先地位。这些测试更加注重生成图像的细节质量和指令跟随能力。例如，在OneIG-Bench的文本渲染项目中，7B的Tuna模型得分达到0.82，远超其他统一模型。这意味着当你要求AI在图像中写上特定文字时，Tuna能够准确、清晰地完成这个任务。

图像编辑能力是Tuna的另一个亮点。在ImgEdit-Bench测试中，Tuna获得了4.31的综合评分，在所有统一模型中排名第一，甚至接近专门的图像编辑模型的性能。无论是添加新元素、调整风格、替换对象还是改变背景，Tuna都能精准地按照指令执行。更重要的是，它还能处理一些隐含的、需要推理的编辑指令，比如"从左侧打光"这样需要理解光影关系的复杂要求。

视频理解和生成是多模态AI的终极挑战之一，因为视频不仅包含空间信息，还有时间序列信息。在MVBench、Video-MME等视频理解测试中，尽管Tuna只有1.5B参数，但它的表现与更大规模的专门视频理解模型相当。这体现了统一架构的优势：通过同时学习静态图像和动态视频，模型能够更好地理解视觉世界的时空关系。

在视频生成的VBench测试中，Tuna再次展现出了全面的实力。它在质量评分、语义评分、主体一致性、背景一致性等多个维度都取得了优秀成绩，总分达到84.06，超过了现有的所有统一多模态模型。这意味着Tuna不仅能生成视觉质量高的视频，还能确保视频内容与输入文本描述高度一致。

五、深度对比：为什么统一比分离更好

为了深入理解Tuna设计选择的优势，研究团队进行了详尽的对比实验，这些实验就像科学家设计对照组来验证假设的有效性。他们比较了三种不同的架构设计：传统的分离式表示、Show-o2风格的后期融合，以及Tuna的统一表示方法。

分离式表示就像让两个专家分别负责"看图"和"画图"，但他们使用完全不同的"语言"和标准。具体来说，理解任务使用SigLIP 2编码器提取的语义特征，而生成任务使用VAE编码器的潜在空间表示。这两种表示在格式上存在根本差异：空间压缩比例不同（16倍对8倍），时间压缩方式不同（无压缩对4倍压缩），特征维度也完全不同（1152维对16维）。

实验结果清楚地显示了这种不一致带来的问题。当模型需要同时处理理解和生成任务时，这些格式差异会造成表示冲突，就像两个人用不同语言交流时的混乱。在理解任务上，分离式方法的性能下降明显，而在生成任务上也无法发挥最佳水平。

Show-o2方法试图通过后期融合来解决这个问题。它的做法类似于让两个使用不同语言的专家各自完成工作，然后通过翻译员进行沟通。具体而言，Show-o2分别处理VAE潜在特征和语义特征，然后通过一个融合层将两者结合。这种方法在理论上似乎合理，但实际效果并不理想。

通过表示对齐分析，研究团队发现了Show-o2方法的根本问题。他们使用CKNNA分数来衡量不同方法产生的统一表示与参考模型（强语义编码器SigLIP 2和强生成模型SD3-Medium）的相似度。结果显示，Show-o2的统一表示严重偏向语义信息，与其理解分支的相关性达到0.45，而与生成分支的相关性仅有0.07。

这种偏向问题就像一个声称平等对待两种观点的调解员，实际上总是偏向其中一方。Show-o2的后期融合策略无法实现真正的平衡，导致最终的统一表示主要反映语义信息，而生成所需的细节信息被边缘化。这解释了为什么Show-o2在生成任务上的表现相对较弱。

相比之下，Tuna的统一表示方法就像培养一个真正的双语专家，他从学习之初就同时掌握两种"语言"，能够灵活地在不同语言间切换和融合。Tuna通过端到端的训练，让表示编码器在理解和生成两个目标的共同指导下学习，形成了一个真正平衡的统一表示空间。

实验数据证实了这种设计的优势。Tuna的统一表示在与SigLIP 2的对齐上保持了强劲的相关性（超过0.5），同时在与SD3-Medium的对齐上也显著超过了Show-o2。这种平衡的表示使得Tuna能够在理解和生成两个方面都达到优秀的性能。

研究团队还发现了一个有趣的现象：更强的预训练表示编码器能够带来更好的整体性能。无论是从SigLIP升级到SigLIP 2，还是使用DINOv3，都能提升模型在各个任务上的表现。这个发现表明，统一表示的质量很大程度上取决于底层视觉编码器的能力，就像一个翻译的质量取决于他对两种语言的掌握深度。

六、协同效应：理解与生成的相互促进

Tuna实验中最令人兴奋的发现之一是理解和生成能力之间存在明显的协同效应。这种现象就像学习音乐时发现的：练习演奏能够帮助更好地欣赏音乐，而深入的音乐欣赏又能提升演奏技巧。

为了验证这种协同效应，研究团队设计了专门的对照实验。他们分别训练只做理解任务的模型、只做生成任务的模型，以及同时处理两种任务的模型，然后比较它们的性能差异。

结果显示，当模型同时学习理解和生成时，两种能力都得到了提升。在理解任务上，联合训练的模型比单纯的理解模型表现更好；在生成任务上，它也超过了只专注生成的模型。这种"一加一大于二"的效果在传统的分离式方法中是难以实现的，这正体现了Tuna统一设计的独特优势。

这种协同效应的原理可以这样理解：当AI学习理解图像时，它需要掌握视觉世界的规律和模式，比如物体的形状、颜色搭配、空间关系等。这些知识在生成新图像时同样重要。反过来，生成训练迫使AI更深入地理解这些视觉元素，因为只有真正理解了才能创造出合理的图像。

研究团队还发现，生成训练对理解能力的提升特别显著。这可能是因为生成任务要求AI对视觉信息进行更细致的建模。当AI需要生成一只猫的图像时，它必须精确掌握猫的各种特征、姿态和表情，这种精确建模反过来帮助它更准确地识别和理解真实图像中的猫。

另一个有趣的发现是，统一表示空间为这种协同效应提供了理想的环境。在统一空间中，理解和生成使用相同的特征表示，这意味着在一个任务中学到的知识可以直接应用到另一个任务中。这就像在同一个工作室中练习素描和油画，技法和经验可以相互借鉴。

实验还显示，这种协同效应在不同规模的模型中都存在。无论是1.5B参数的小模型还是7B参数的大模型，联合训练都能带来性能提升。这表明协同效应是统一架构的本质特性，而不是某种特殊情况下的偶然现象。

七、实际应用表现：从实验室到现实世界

Tuna的真正价值不仅体现在标准测试中的数字，更重要的是它在处理复杂现实任务时的表现。研究团队展示了大量定性结果，这些例子就像艺术品展览一样，直观地展现了Tuna的多样化能力。

在图像生成方面，Tuna展现出了出色的文本渲染能力和细节控制能力。例如，当要求生成一个杂志封面时，Tuna不仅能够准确地渲染标题文字"TUNA STORY"，还能将文字与背景图像完美融合，创造出专业级的视觉效果。在生成包含复杂指令的图像时，比如"在黑板上画一个关于友善和包容的图表，包括特定的检查清单项目"，Tuna能够准确理解并执行每个细节要求。

特别令人印象深刻的是Tuna在风格化生成方面的能力。当要求以"1960年代华特·迪士尼动画风格"生成图像时，Tuna不仅能够模仿这种特定的艺术风格，还能在保持风格一致性的同时精确表达内容要求。这种风格化能力表明，Tuna不仅学会了图像的表面特征，还掌握了更深层的艺术表现手法。

在图像编辑任务上，Tuna展现出了灵活的理解和执行能力。面对"将狗的图像渲染成手工雕塑粘土动画风格，给狗一个开心、眯眼的笑容"这样的复杂指令，Tuna能够同时处理风格转换和表情修改两个维度的要求。更令人惊喜的是，它还能处理一些隐含的指令，比如"从左侧应用高端工作室照明"，这需要AI理解光影的物理原理和摄影的专业知识。

视频生成是Tuna能力的另一个亮点。生成的视频不仅视觉质量高，还能保持时间上的连贯性和逻辑性。例如，在生成"一只狮子和幼崽在草原上"的视频时，Tuna不仅准确描绘了动物的外观和环境，还创造了合理的动作序列：成年狮子平静地注视远方，幼崽从右侧出现并走向成年狮子，最后在成年狮子身边躺下。这种叙事性的视频生成能力表明，Tuna不仅理解静态视觉元素，还掌握了动态叙事的逻辑。

在处理多语言和跨文化内容时，Tuna也表现出了良好的适应性。它能够准确生成包含各种语言文字的图像，理解不同文化背景下的视觉元素和表达方式。这种跨文化能力使得Tuna在全球化应用场景中具有很大的潜力。

研究团队还展示了Tuna在处理具有挑战性的组合任务时的能力。例如，当要求生成"一个穿着夏威夷衬衫在热带海水中游泳的金枪鱼"这样的超现实主题时，Tuna能够合理地结合不同的视觉元素，创造出既有趣又合理的图像。这种创意组合能力表明，Tuna不仅能够复制训练数据中见过的内容，还能创造性地组合不同元素。

八、技术细节：让复杂变简单的工程智慧

Tuna的成功不仅源于其创新的架构设计，还得益于许多精心考虑的技术细节。这些细节就像一座复杂建筑中的各种巧妙设计，每一个都为整体性能做出了贡献。

在处理不同分辨率图像时，Tuna采用了灵活的策略。虽然基础训练分辨率是512×512像素，但系统能够处理各种长宽比的图像，只要总的视觉令牌数量相似。这种设计就像一个能够适应不同画布尺寸的画家，无论是方形、横向还是纵向的画布，都能创作出协调的作品。

对于视频处理，Tuna采用了基于窗口的注意力机制来应对长序列的挑战。这种方法将连续的视频帧分组处理，每组包含4帧，这样既保证了处理效率，又保持了时间连贯性。这个设计就像将一部长电影分解为连续的场景来分析，每个场景内部保持完整的逻辑关系，场景之间又能形成连贯的叙事。

在注意力机制的设计上，Tuna根据不同任务采用了不同的掩码策略。对于理解任务，文本部分使用因果掩码，确保生成文本时只能看到之前的信息；视觉部分使用全连接掩码，允许全局的视觉信息交互。这种设计模拟了人类处理信息的方式：在思考表达时是序贯的，在观察图像时是全局的。

流匹配头的设计也体现了工程上的精巧考虑。这个组件不仅采用了与主要语言模型相同的transformer架构，还加入了AdaLN-Zero时间步条件化机制。这种设计确保了生成过程能够精确控制每个时间步的输出，同时与语言模型的处理方式保持一致性。

训练过程中的学习率调度也经过了仔细设计。研究团队在不同阶段使用不同的学习率：早期阶段使用较高的学习率（1×10^-4）来快速建立基本能力，后期阶段降低学习率（2×10^-5）来进行精细调节。这种策略就像学习任何技能的自然过程，初期快速掌握基础，进阶时慢慢精雕细琢。

在数据处理方面，Tuna采用了多样化的训练数据组合。早期阶段主要使用图像标注和基础生成数据，中期引入图像编辑和视频理解数据，最后阶段使用高质量的指令跟随数据进行微调。这种渐进式的数据引入策略确保了模型能够稳步提升复杂任务的处理能力。

为了处理不同模态之间的时间同步问题，Tuna引入了时间步标记机制。这个标记就像给每个处理阶段贴上时间标签，帮助模型理解当前处理的是哪个阶段的信息。这种设计对于确保理解和生成任务的协调至关重要。

九、局限性与未来展望：完美路上的必经之路

尽管Tuna在多个方面都表现出色，但研究团队也诚实地指出了当前方法的一些局限性。这种坦诚的态度就像一个优秀的艺术家不仅展示自己的杰作，也会讨论作品中仍需改进的地方。

首先，由于计算成本的考虑，7B版本的Tuna没有包含视频数据的训练。这意味着较大规模模型在视频理解和生成方面的潜力还没有完全发挥出来。这个限制就像一个有潜力成为电影导演的人目前只接受了摄影训练，虽然在静态图像方面表现优异，但在动态视频方面还有待开发。

其次，虽然统一表示带来了很多优势，但在某些特定任务上，专门化的模型可能仍有优势。这就像一个全能运动员虽然在综合能力上出众，但在某些单项比赛中可能还是不如专项选手。不过，考虑到实际应用场景通常需要多种能力的结合，这种轻微的单项劣势是可以接受的权衡。

在模型规模方面，当前的实验主要集中在1.5B和7B参数规模上。更大规模模型的潜力还有待探索。研究团队表示，他们相信随着计算资源的改善和训练技术的发展，更大规模的统一模型将会带来更显著的性能提升。

训练数据的质量和多样性也是一个持续的挑战。虽然当前的训练数据已经相当丰富，但为了进一步提升模型在复杂场景下的表现，需要更多高质量、多样化的配对数据。这就像培养一个世界级的艺术家需要接触各种不同风格和题材的作品。

在推理效率方面，虽然统一架构比分离式方法更高效，但处理复杂的多模态任务仍然需要大量计算资源。未来的研究可能需要探索更高效的推理算法和硬件优化策略。

展望未来，研究团队认为统一多模态模型将朝着几个方向发展。首先是规模的扩大，更大的模型参数和更丰富的训练数据将带来更强的能力。其次是模态的扩展，除了图像和视频，未来的模型可能还会整合音频、3D场景等更多模态。第三是效率的提升，通过更好的架构设计和训练策略来降低计算成本。

研究团队还展望了Tuna技术在实际应用中的前景。在内容创作领域，Tuna可以帮助设计师和创作者更高效地产生创意和实现想法。在教育领域，它可以根据文本描述生成教学图像和视频，或者帮助理解复杂的视觉内容。在医疗、科研等专业领域，Tuna也可能为图像分析和可视化提供新的工具。

说到底，Tuna代表了人工智能向更通用、更智能方向发展的重要一步。它证明了统一的多模态处理不仅是可能的，而且能够带来比分离式方法更好的性能。这种"一专多能"的AI系统更接近人类的认知方式，也更适合解决复杂的现实世界问题。

虽然还有很多挑战需要克服，但Tuna的成功为未来的研究指明了方向。随着技术的不断发展，我们有理由期待更强大、更智能的统一多模态系统的出现。这些系统不仅能够理解和创造视觉内容，还可能整合更多的感知和认知能力，最终实现真正意义上的通用人工智能。

对于普通人来说，这意味着未来我们将拥有更加智能和便利的AI助手。无论是帮助我们理解复杂的图像信息，还是协助我们创作个性化的视觉内容，这些统一的AI系统都将成为我们日常生活和工作中不可或缺的伙伴。Tuna的研究成果让我们看到了这个未来的曙光。

**Q&A**

**Q1：Tuna模型与传统AI图像系统有什么根本区别？**

**A：** 传统AI系统就像分工明确的专家，有些只会"看图"理解内容，有些只会"画画"生成图像，它们使用完全不同的处理方式。而Tuna就像一个既会欣赏艺术又会创作的全能艺术家，使用统一的"视觉语言"来处理所有任务。这种统一设计让理解和生成能力能够相互促进，就像学习演奏乐器能帮助更好地欣赏音乐一样。

**Q2：Tuna模型在实际应用中能做什么？**

**A：** Tuna能够同时处理多种视觉任务，包括看懂图片内容并回答问题、根据文字描述生成新图片、编辑已有图片的内容和风格、理解视频情节，以及制作新的视频内容。比如你可以让它看一张旅行照片并描述景点，也可以要求它创作一张特定风格的海报，甚至可以让它将一张普通照片改成卡通风格。这种"一个AI做所有事"的能力让它特别适合内容创作和教育等需要多种视觉处理的场景。

**Q3：为什么Tuna的统一设计比分离式方法更好？**

**A：** 分离式方法就像让两个不说同种语言的专家合作，他们各自使用不同的标准和方法，很难协调一致。而Tuna的统一方法就像训练一个真正的双语专家，从学习初期就同时掌握"理解"和"创作"两种能力，用同一套"视觉语言"处理所有任务。实验证明，这种协同学习让两种能力都得到提升，最终效果比单独训练更好，就像学音乐的人发现练习演奏能帮助更好地欣赏音乐一样。

Meta推出Tuna模型：一个AI既能看懂图片又能画画的神奇系统

M2FP模型源码解读：理解语义分割核心算法

使用M2FP构建智能安防人脸遮挡检测系统

Vue3-05 Vue2 OptionsAPI 选项式API VS Vue3 CompositionAPI 组合式API

轻量不卡顿的网页音效！即使弱网环境也能流畅加载

揭秘高效招牌制作：亚克力与KT板的黄金组合如何赋能现代商业

40.useSSR