在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。
多模态 AI 的目标是同时处理图像、文本等多种数据类型,然而,整合这些不同来源的数据一直是一个难题。目前的技术普遍采用后期融合(late-fusion)策略,即将预训练的单模态模型(如视觉和语言模型)组合在一起。虽然这种方法操作简单,但在实现真正的多模态理解时,往往受到单模态预训练带来的固有偏差限制,进而影响模型捕捉跨模态关系的能力。
图源备注:图片由AI生成,图片授权服务商Midjourney
随着系统规模的扩大,各个组件的参数、预训练需求及扩展特性差异显著,导致计算资源的分配变得复杂,尤其是在需要深度多模态推理的任务中,性能受到严重影响。在此背景下,苹果与索邦大学的研究团队挑战了传统的架构选择,深入探讨了原生多模态模型(NMMs)的扩展特性。
研究比较了早期融合(early-fusion)与后期融合模型。结果显示,尽管两者在从头训练时性能相当,早期融合模型在较低计算预算下表现更高效,并且更易于扩展。此外,团队还探索了专家混合(MoE)稀疏架构,这一架构能够动态分配参数,针对不同模态进行专项优化。与稠密模型相比,稀疏模型在小规模模型中表现出明显的优势。
研究表明,稀疏模型更倾向于扩展训练数据(training tokens),而非活跃参数(active parameters),这与稠密模型的扩展方式形成了鲜明对比。通过系统实验,研究团队训练了从0.3亿到40亿活跃参数的多模态模型,验证了早期融合和稀疏架构在多模态处理中的潜力。这些发现不仅挑战了传统的设计理念,也为未来高效多模态 AI 系统的开发提供了新思路。
评论 (0)