总有一天,你可能希望家里的机器人能将一堆脏衣服搬下楼,然后把它们放在地下室最左边角落的洗衣机里。机器人需要结合你的指令和它的视觉观察来确定完成这项任务所需的步骤。
对于人工智能代理而言,这看似简单,实则复杂。目前的技术往往需要多个精心设计的机器学习模型来分别处理任务的不同环节,这不仅需要大量的人力投入,还需要深厚的专业知识来构建。这些方法依赖于视觉数据来直接作出导航决策,而要训练这些模型,需要海量的视觉数据,这在实践中往往难以获得。
为了解决这些难题,麻省理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员开发了一种导航方法。这种方法将视觉信息转化为语言描述,然后输入到一个大型语言模型中,从而实现整个多步骤导航任务。
与将机器人周围环境的视觉特征编码为视觉数据(这在计算上非常复杂)不同,他们的方法是通过生成描述机器人视角的文本说明。接着,这个大型语言模型会利用这些说明来预测机器人应该如何行动,以满足用户基于语言的指令。
由于这种方法完全基于语言的表示,研究人员能够利用大型语言模型高效地生成大量的模拟训练数据。
尽管这种方法在性能上并不总是超过那些使用视觉特征的技术,但它在视觉训练数据不足的情况下表现尤为出色。研究人员还发现,将基于语言的输入与视觉信号相结合,能够显著提高导航的准确性。
“通过纯粹使用语言作为感知的表示,我们的方法更为直接。因为所有的输入都可以转化为语言,我们能够生成一个易于人类理解的导航路径,”鲍文潘说,他是电气工程和计算机科学专业的研究生,也是这项研究的主要论文作者。
这项研究的共同作者包括鲍文潘的导师奥德·奥利瓦,她是麻省理工学院施瓦茨曼计算学院战略行业参与的负责人,同时也是麻省理工学院-IBM沃森人工智能实验室的负责人和计算机科学与人工智能实验室的高级研究员;菲利普·伊索拉,麻省理工学院电气工程和计算机科学副教授,也是计算机科学与人工智能实验室的成员;主要作者尹金,麻省理工学院电气工程和计算机科学助理教授,也是计算机科学与人工智能实验室的成员;以及来自麻省理工学院-IBM沃森人工智能实验室和达特茅斯学院的其他研究人员。这项研究将在北美计算语言学协会的会议上展示。

用语言解决视觉问题

鲍文潘表示,由于大型语言模型是目前最强大的机器学习模型,研究人员希望将它们融入到被称为视觉-语言导航的复杂任务中。
但这些模型接受文本的输入,无法处理机器人摄像头的视觉数据。因此,团队需要找到一种使用语言的方法。
他们的技术采用了一个简单的标注模型来获取机器人视觉观察的文本描述。这些描述与基于语言的指令结合起来,输入到一个大型语言模型中,该模型决定机器人接下来应该采取哪一步导航。
大型语言模型输出一个字幕,描述机器人完成那一步后应该看到的场景。这被用来更新轨迹历史,以便机器人能够跟踪它去过的地方。
该模型重复这些过程,逐步生成一条引导机器人到达目标的轨迹。
为了简化这个过程,研究人员设计了模板,以便观察信息以标准形式呈现给模型——作为一系列基于其周围环境机器人可以做出的选择。
例如,一个标题可能会说:“在你的左侧30度处有一扇门,旁边有一盆植物,你的背后是一个小办公室,里面有桌子和电脑”,等等。模型选择机器人是否应该朝门或办公室移动。
潘说:“最大的挑战之一是弄清楚如何以适当的方式将这类信息编码成语言,使代理理解任务是什么以及它们应该如何响应。”

语言的优势

当研究人员测试这种方法时,虽然它无法超越基于视觉的技术,但他们发现它提供了几个优势。
首先,因为与复杂的图像数据相比,文本合成所需的计算资源更少,他们的方法可以快速生成合成的训练数据。在一个测试中,他们基于10个现实世界的视觉轨迹生成了10,000条合成轨迹。
这种技术还可以弥合模拟环境中训练的代理与现实世界中表现良好之间的差距。这种差距通常发生是因为计算机生成的图像可能因光照或颜色等元素与现实世界场景大相径庭。但用语言描述合成图像与真实图像的区别要难得多,潘说。
此外,他们模型使用的表示更容易被人理解,因为它们是用自然语言编写的。
"如果代理未能达到目标,我们可以更容易地确定它在哪里失败以及为什么失败。也许是历史信息不够清晰,或者观察忽略了一些重要细节,"潘说。
此外,他们的方法可以更容易地应用于不同的任务和环境,因为它只使用一种类型的输入。只要数据可以编码为语言,他们就可以使用相同的模型而无需进行任何修改。
但一个缺点是,他们的方法自然会丢失一些基于视觉模型会捕捉到的信息,例如深度信息。
然而,研究人员惊讶地发现,将基于语言的表示与基于视觉的方法结合起来,可以提高代理的导航能力。
"这可能意味着语言能够捕捉到一些纯视觉特征无法捕捉的更高层次的信息,"他说。
这是研究人员希望继续探索的一个领域。他们还希望开发一个面向导航的标注器,以提高方法的性能。此外,他们想要探究大型语言模型展现空间意识的能力,并看看这如何帮助基于语言的导航。
这项研究部分由麻省理工学院-IBM沃森人工智能实验室资助。