这篇来自中国的论文介绍了 Emu2——一个 370 亿参数的多模态模型,它重新定义了任务求解和自适应推理。

多模式任务是需要以多种模式理解和生成信息的任何活动。 这些活动可能多种多样且时间较长。 多模态系统很难扩展,因为它们依赖于大量的监督训练集和特定于任务的架构,而每个新任务都必须重复这些架构。 当今的多模式模型尚未掌握人们在上下文中学习新任务的能力。 这意味着即使有最少的指导或演示,他们也无法做到这一点。 最近的研究表明,生成式预训练语言模型能够从上下文中学习。

来自北京人工智能研究院 (BAAI)、清华大学和北京大学的研究人员开发了 Emu2,这是一个拥有 370 亿个参数的模型,已针对多个多模态任务进行了训练和评估。 他们发现,多模态预训练模型在扩展到更大尺寸时,仍然可以在上下文中学习并轻松推广到新的多模态问题。 预测下一个多模态元素(文本标记或视觉嵌入)的目标是 Emu2 训练期间唯一使用的目标。 这种统一的预训练技术使用大规模多模态场景(例如图像、文本对或交错的视频-图像-文本)来训练模型。

Emu2 是多模式和生成性的。 它学习预测多模式环境中的元素。 Emu2 围绕三个主要组件进行设计:视觉编码器多模态建模和视觉解码器。 Visual Encoder 对输入图像进行标记,然后将它们与文本标记交错,为自回归建模做好准备。 Visual Decoder 将回归嵌入转换为电影或图像。

来源和详细信息:
https://www.marktechpost.com/2023/12/24/this-ai-paper-from-china-introduces-emu2-a-37-billion-parameter-multimodal-model-redefining-task-solving-and-adaptive-reasoning/

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注