谷歌的新AI搜索功能一团糟。那么,它为什么说吃石头和粘胶披萨这种话呢?它能被修复吗?
当谷歌本月早些时候宣布推出其人工智能驱动的搜索功能时,该公司承诺“谷歌会为你搜索”。这个名为AI Overviews 的新功能提供了简短的、由 AI 生成的摘要,突出显示搜索结果顶部的关键信息和链接。
不幸的是,AI 系统天生就不可靠。在美国推出 AI Overviews 的几天内,用户们在社交媒体上分享了许多令人啼笑皆非的案例。它建议用户在披萨上加胶水,或者每天至少吃一块小石头,并且说美国前总统安德鲁·约翰逊在1947年到2012年之间获得了大学学位,尽管他在1875年就去世了。
周四,谷歌搜索负责人Liz Reid宣布,公司一直在对系统进行技术改进,以减少生成错误答案的可能性,包括更好的检测机制来识别无意义的查询。它还限制了在回应中包含讽刺、幽默和用户生成的内容,因为这类材料可能导致误导性建议。
但是,为什么AI Overviews会返回不可靠、潜在危险的信息呢?如果有的话,可以做些什么来修复它?
AI Overviews 是如何工作的?
为了理解AI驱动的搜索引擎为什么会出错,我们需要看看它们是如何被优化工作的。我们知道 AI Overviews 使用了一个新的生成性 AI 模型 Gemini,这是谷歌的大型语言模型(LLMs)家族中为谷歌搜索定制的。该模型已经与谷歌的核心网络排名系统集成,并设计用来从其网站索引中提取相关结果。
大多数 LLMs 只是预测序列中的下一个词(或是词元),这让它们看起来更流畅,但也容易编造内容。它们没有事实可以依赖,而是纯粹基于统计计算来选择每个词。这导致了幻觉。很可能 AI Overviews 中的 Gemini 模型通过使用一种名为检索增强生成(RAG)的 AI 技术来解决这个问题,它允许 LLM 检查它训练过的数据之外的特定来源,比如某些网页,华盛顿大学专门研究在线搜索的教授 Chirag Shah 说。一旦用户输入一个查询,它就会与构成系统信息来源的文档进行核对,并生成一个回应。因为系统能够将原始查询与网页的特定部分匹配起来,所以它能够引用它从哪里得到答案的——这是普通 LLMs 无法做到的。
RAG 的一个主要优点是,它对用户查询生成的回应应该比基于其训练数据生成答案的典型模型更更新、更准确、更相关。这种技术通常用来防止 LLMs 产生幻觉。(谷歌发言人没有确认 AI Overviews 是否使用 RAG。)
它为什么会返回错误的答案呢?
但是 RAG 远非万无一失。为了让使用 RAG 的 LLM 得出一个好的答案,它必须正确检索信息并正确生成回应。当一个或两个过程失败时,就会得到一个坏的答案。
但是RAG远非万无一失。为了让一个使用RAG的LLM得出好的答案,它必须既能正确地检索信息,也能正确地生成回应。当其中一个或两个过程失败时,就会得“AI概述建议了一个加胶水的比萨食谱——来源于一个发表在Reddit上的笑话。在这个例子中,对于奶酪不粘在披萨上的用户原始查询来说,帖子可能看起来是相关的。但是检索过程出现了问题,”Shah说:“仅仅相关不代表是正确的,并且过程中的生成部分不会质疑这点。”
同样,如果一个 RAG 系统遇到相互矛盾的信息,比如一个政策手册和一个更新版本的同一手册,它无法计算出应该从哪个版本中提取回应。相反,它可能会将两者的信息结合起来,创建一个可能误导的答案。
莱顿大学专门研究自然语言处理的教授 Suzan Verberne 说:“大型语言模型基于提供的来源生成流畅的语言,但流畅的语言并不等同于正确的信息。”她说,一个主题越具体,大型语言模型的输出中错误信息的机会就越高,她补充说:“这是一个在医疗领域的问题,但在教育和科学领域也是如此。”
谷歌发言人说,当 AI Overviews 返回错误答案的许多情况下,是因为网络上没有很多高质量的信息可供查询——或者因为查询最接近讽刺网站或笑话帖子。发言人说,绝大多数 AI Overviews 提供了高质量的信息,许多错误答案的例子是对不常见的查询的回应,他补充说,包含潜在有害、淫秽或不可接受内容的AI Overviews是在不到每700万个独特查询中的一个中出现的。谷歌正在继续根据其内容政策删除某些查询的AI Overviews。
不仅仅是糟糕的训练数据的问题
虽然披萨胶水失误是AI Overviews指向不可靠来源的一个好例子,但该系统也可以从事实上正确的来源生成错误信息。新墨西哥州圣达菲研究所的人工智能研究员Melanie Mitchell在谷歌上搜索“美国有多少穆斯林总统?”AI Overviews回应说:“美国有一个穆斯林总统,巴拉克·侯赛因·奥巴马。”
虽然巴拉克·奥巴马不是穆斯林,这使得AI Overviews的回答是错误的,但它的信息来自于一本名为《巴拉克·侯赛因·奥巴马:美国的第一个穆斯林总统?》的学术书中的一章。Mitchell说,AI系统不仅错过了整篇文章的重点,而且以完全相反的方式解释了它。“这里有几个问题,一个是找到一个不是笑话的好来源,但另一个是正确解释来源在说什么,”她补充说。“这是AI系统在做的事情,重要的是要注意,即使它得到了一个好的来源,它仍然会犯错误。”
这个问题能解决吗?
最终,我们知道 AI 系统是不可靠的,只要它们使用概率逐字生成文本,幻觉就永远是一种风险。虽然随着谷歌在幕后调整 AI Overviews,它可能会有所改进,但我们永远不能确定它将是100%准确的。
谷歌表示,它正在为 AI Overviews 不是特别有帮助的查询添加触发限制,并为与健康相关的查询添加了额外的“触发细化”。Verberne 说,公司可以在信息检索过程中增加一个步骤,设计用来标记一个风险查询,并让系统在这些情况下拒绝生成答案。谷歌发言人说,谷歌并不打算为明确或危险的话题显示 AI Overviews,也不打算为表明处于弱势情况的查询显示。
从人类反馈中进行强化学习的技术,将这种反馈纳入LLM的训练,也可以帮助提高其答案的质量。
同样,LLMs 可以专门为识别无法回答的问题的任务进行训练,并且它也可能有用,以指示它们在生成答案之前仔细评估检索到的文件的质量,Verbene 说:“正确的指导非常有帮助!”
尽管谷歌在 AI Overviews 答案上增加了一个标签,上面写着“生成性AI是实验性的”,但它应该考虑更清楚地表明该功能处于测试阶段,并强调它还没有准备好提供完全可靠的答案,Shah 说。“直到它不再是测试版——它目前绝对是,并将在未来一段时间内——它应该是完全可选的。它不应该被强加给我们作为核心搜索的一部分。”
评论 (0)