猫喝啤酒后竟长出人手?Runway AI视频生成器的惊人之作!-Mo 动态

在六月份,Runway推出了一个名为Gen-3 Alpha的新文本到视频合成模型。它能够将称为“提示”的书面描述转换成没有声音的高清视频片段。我们有机会使用它,并希望分享我们的结果。我们的测试表明,仔细的提示并不像匹配训练数据中可能找到的概念那样重要,而且要获得有趣的结果可能需要多代生成和选择性的挑选。

自2022年以来我们看到的所有生成性AI模型的一个持久主题是,它们在混合训练数据中发现的概念方面可以非常出色,但在泛化(将学到的“知识”应用到模型没有明确训练过的新情况)方面通常非常差。这意味着它们在风格和主题的新颖性上可以表现出色,但在超出训练数据的基本结构新颖性上却挣扎。

所有这些意味着什么?在Runway Gen-3的情况下,泛化的缺乏意味着你可能会要求在一杯旋转的咖啡中出现一艘帆船,只要Gen-3的训练数据包括帆船和旋转咖啡的视频示例,这对模型来说是一个“容易”的新颖组合,可以相当令人信服地制作出来。但如果你要求一只猫喝一罐啤酒(在啤酒广告中),它通常会失败,因为训练数据中可能没有多少关于逼真的猫喝人类饮料的视频。相反,模型会从它对猫的视频和啤酒广告的视频学到的内容中提取,并结合起来。结果就是一只长着人手的猫在猛喝啤酒。

(更新:Runway没有透露它从哪里获得训练数据,但在这篇文章发表后,404 Media发布了一份报告,似乎显示大部分视频数据来自未经授权的YouTube视频抓取。)

一些基本的提示

在Gen-3 Alpha测试阶段,我们注册了Runway的标准计划,该计划每月提供625个积分,费用为15美元,还有一些额外的免费试用积分。每次生成的成本为每秒钟视频10个积分,我们为每个10秒的视频创建了100个积分。因此,我们能做的生成数量是有限的。

我们首先尝试了一些过去在图像合成测试中使用过的标准,比如喝啤酒的猫、手持CRT电视的野蛮人,以及宇宙女王。我们还借用了Ars Technica的传说,提到了我们的吉祥物“月亮鲨鱼”。你会在下面看到所有这些结果以及更多。

我们的积分非常有限,以至于我们无法重新运行它们并进行挑选,所以你看到的每个结果正是我们从Runway收到的单一生成结果。

“麦当劳新推出的火焰芝士汉堡的广告。”

https://wp-media.momodel.cn/2024/09/20240905030520180.mp4


”一只猫在车里喝一罐啤酒,啤酒广告。“

https://wp-media.momodel.cn/2024/09/20240905030726603.mp4

一些值得注意的失败

正如你上面看到的,Runway的视频合成技术目前的状态已经包含了大量的概念错误。这就引出了一个好问题:当我们对一只猫突然长出人手喝啤酒感到满意时,我们应该将什么视为一代失败?

在这种情况下,我们觉得有时候AI模型并没有非常紧密地遵循提示——无论是在主题上还是建议的摄像机运动上。而且至少,这些生成的结果没有让我们感到娱乐。


“本杰明·爱德华兹,一位计算机记者,正在一台变成机器人的打字机上撰写有关人工智能的文章。”

https://wp-media.momodel.cn/2024/09/20240905030803460.mp4

尝试使用更详细的提示

由于为Gen-3构建好的提示可能会有些棘手,有人创建了一个GPT助手(用于ChatGPT),它可以帮助将简单的提示转换成包含更详细摄像机指令的更具描述性的提示语言。使用这个GPT,我们创建了以下作品:

“低角度静态镜头:一只泰迪熊坐在公园的野餐毯上,吃着一片比萨。这只泰迪熊是棕色的,毛茸茸的,系着红色的领结,比萨片上满是融化的奶酪和意大利辣味香肠。太阳正在落山,给整个场景投下了金色的光辉。”

https://wp-media.momodel.cn/2024/09/20240905031027609.mp4

最终,花哨的提示并没有真正起到帮助作用。目前,Runway Gen-3 Alpha就像是一个迷幻玩具,如果你有足够的积分,它可以很有趣。但它通常缺乏连贯性,无法生成可以称之为“有用视频”的内容,尽管根据项目的不同,你的体验可能会有所不同。即使结果完美无缺,使用一个在未知数据集上训练的视频合成模型的伦理问题可能会引发一些反弹。

什么可以改进Runway的AI模型?除了其他事情之外,更多的训练数据和更好的注释。AI模型需要尽可能多的多样化、标签良好的示例来学习,这样它才能更好地将提示转换成用户希望看到的内容。OpenAI的GPT-4在文本合成方面引起关注的一个原因是,该模型最终达到了足够的规模,吸收了足够的信息(在训练数据中),给人一种它可能真正能够理解和模拟世界的印象,而实际上,它的成功一个关键方面是它“知道”的比大多数人类还要多,并且可以通过以新颖的方式组合这些现有概念来给我们留下深刻印象。

有了足够的训练数据和计算能力,AI行业最终可能会在AI视频合成领域达到所谓的“理解的幻觉”——但电视和电影制作行业的人们可能不会喜欢这一点。