Runway 研究人员推出了 Gen-1,这是一种新的生成式 AI 模型,它使用语言和图像从现有视频中创建新视频

视觉效果和视频编辑在当前的媒体环境中很普遍。 随着以视频为中心的平台越来越受欢迎,对易于使用和高效的视频编辑软件的需求也在增加。 由于视频数据是基于时间的,编辑难度大,耗时长。 现代机器学习模型已显示出增强编辑的巨大潜力。 然而,技术通常会损害空间细节和时间一致性。 在大型数据集上训练的强大扩散模型的出现推动了生成图片合成技术的最新改进。 简单的用户可以使用 DALL-E 2 或 Stable Diffusion 等文本条件模型来生成仅需文本提示的详细图像。 潜在扩散模型在感知受限的环境中合成图像。 由于在图片合成中发展的扩散模型,他们研究了适用于交互式视频编辑的生成模型。 当前的技术通过使用计算直接对应的方法,或通过微调每个独特的视频并重新定位现有图片模型来传播调整。

他们避免了昂贵的每部电影计算和培训,以允许对每个视频进行快速推理。 他们提出了一种内容感知视频传播模型,该模型具有可配置的结构设计,该模型在与无字幕电影配对的大型文本图像数据集上进行训练。 他们使用单眼深度估计来表示结构,并使用预训练网络来预测嵌入以表示内容。 该方法允许在创作过程中放置几个强大的控件。 该模型以与图像合成模型类似的方式进行训练,因此可以使用用户提供的图像或文本来预测电影的内容,例如它们的风格或外观(图 1)。

图 1:带指导的视频合成。 我们提出了一种方法,该方法使用潜在视频扩散来根据文本或图像描述合成视频(顶部和底部),同时保持原始视频结构(中间)。

来源和详细信息:

Runway Researchers Unveil Gen-1: A New Generative AI Model That Uses Language And Images To Generate New Videos Out of Existing Ones

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注