经过多年由被称为“变换器”的人工智能形式主导,现在人们正在寻找新的架构。
变换器是OpenAI的视频生成模型Sora的基础,它们也是像Anthropic的 Claude、Google 的 Gemini和GPT-4o 这样的文本生成模型的核心。但是,它们开始遇到技术障碍——特别是与计算相关的障碍。
变换器在处理和分析大量数据方面并不特别高效,至少在运行现成的硬件时是这样。这导致随着公司建设和扩展基础设施以适应变换器的要求,电力需求急剧增加,可能不可持续。
本月提出的一个有前景的架构是测试时训练(TTT),这是斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员在一年半的时间里开发的。研究团队声称,TTT模型不仅可以比变换器处理更多的数据,而且它们可以在不消耗几乎相同计算能力的情况下做到这一点。
变换器中的隐藏状态
变换器的一个基本组成部分是"隐藏状态",它本质上是一长串数据。当变换器处理某物时,它会向隐藏状态添加条目以"记住"它刚刚处理的内容。例如,如果模型正在阅读一本书,隐藏状态值将是单词(或单词的一部分)的表示。
"如果你将变换器视为一个智能实体,那么查找表——它的隐藏状态——就是变换器的大脑,"斯坦福大学的博士后、TTT研究的共同贡献者Yu Sun告诉TechCrunch。"这种专门的大脑使变换器具有众所周知的能力,如上下文学习。"
隐藏状态是使变换器如此强大的一部分。但它也阻碍了它们。要"说"变换器刚刚阅读的书的一句话,模型必须扫描其整个查找表——这项任务在计算上要求与重新阅读整本书一样高。
因此,Sun和他的团队有了用机器学习模型替换隐藏状态的想法——就像AI的嵌套娃娃一样,模型中的模型。
这有点技术性,但要点是,与变换器的查找表不同,TTT模型的内部机器学习模型在处理额外数据时不会不断增长。相反,它将处理的数据编码成代表性变量,称为权重,这使得TTT模型具有高性能。无论TTT模型处理多少数据,其内部模型的大小都不会改变。
Sun相信,未来的TTT模型可以高效地处理数十亿个数据片段,从单词到图像,再到音频记录和视频。这远远超出了当今模型的能力。
"我们的系统可以在不重新阅读书X次的计算复杂性的情况下,说出关于书的X个词,"Sun说。"基于变换器的大型视频模型,如Sora,只能处理10秒的视频,因为它们只有一个查找表'大脑'。我们的最终目标是开发一个系统,可以处理一段长视频,类似于人类生活的视觉体验。"
对TTT模型的怀疑
那么,TTT模型最终会取代变换器吗?它们可能会。但现在说还为时过早。
TTT模型不是变换器的直接替代品。研究人员只为研究开发了两个小型模型,使得TTT作为一种方法现在很难与一些较大的变换器实现进行比较。
"我认为这是一个非常有趣的创新,如果数据支持它提供效率增益的说法,那是个好消息,但我不能告诉你它是否比现有架构更好,"没有参与TTT研究的伦敦国王学院信息学系的高级讲师Mike Cook说。"我的一个老教授在我本科时经常讲一个笑话:你如何解决计算机科学中的任何问题?增加另一层抽象。在神经网络内部添加一个神经网络肯定让我想起了这一点。"
无论如何,对变换器替代品的研究加速表明,人们越来越认识到需要突破。
本周,AI初创公司Mistral发布了一个基于变换器的另一种替代品,称为状态空间模型(SSMs)的模型,Codestral Mamba。SSMs和TTT模型一样,似乎比变换器更具计算效率,并且可以扩展到更大量的数据。
AI21实验室也在探索SSMs。Cartesia也在探索,它是一些最早的SSMs和Codestral Mamba的名字来源,Mamba和Mamba-2的先驱。
如果这些努力成功,它可能会使生成性AI比现在更易于访问和广泛——无论好坏。
评论 (0)