调整大法好!如何让AI更懂你的心声?-Mo 动态

生成式人工智能现在已成为研究人员和普通大众的热门话题。现在比以往任何时候都更重要的是,研究人员和工程师(即那些开发技术的人)必须培养一种向他人传达其创作细节的能力。如果不能以一种易于理解和易于理解的方式传达人工智能的技术方面,可能会导致公众普遍怀疑(例如,核能研究走上了类似的道路)或颁布过于严格的立法,阻碍我们领域的进步。
这是一个简单的三部分框架,您可以使用它向(几乎)任何人解释生成语言模型。

  1. Transformer 架构:LLM 使用的神经网络架构。
  2. 语言模型预训练:LLM 使用的(初始)训练过程。
  3. 调整过程:我们如何教导法学硕士 (LLM) 按照我们的喜好行事。

尽管人工智能研究人员可能很了解这些技术,但我们也必须知道如何用简单的术语解释它们!人工智能不再只是一个研究课题,而是一个公众感兴趣的话题。

Transformer 架构

最新的生成语言模型都基于 Transformer 架构。尽管 Transformer 最初被提出有两个模块(即编码器和解码器),但生成式 LLM 使用的是该架构的解码器变体。该架构将已嵌入到相应向量表示中的标记序列(即单词或子单词)作为输入,并通过两个重复操作对其进行转换:

  • 掩蔽自我注意力:查看序列中的其他标记(即,当前标记之前的标记)。
  • 前馈转换:单独转换每个标记表示。

这两个操作各自发挥着独特而关键的作用。通过将多个掩蔽自注意力和前馈转换块堆叠在一起,我们得到了当今大多数生成式 LLM 使用的神经网络架构。

预训练

自监督学习是指使用原始数据中已经存在的信号来训练机器学习模型。在生成语言模型的情况下,自监督学习最常用的目标是下一个标记预测,也称为标准语言建模目标。有趣的是,这个目标——尽管很容易理解——是所有生成语言模型的核心。为了预训练生成语言模型,我们首先整理大量原始文本语料库(例如,来自书籍、网络、科学出版物等)以用作数据集。从随机初始化的模型开始,我们通过迭代执行以下步骤来预训练 LLM:
1. 从数据集中抽取一系列原始文本。
2. 将此文本序列传递给仅解码器的变压器。
3. 训练模型准确预测序列中每个位置的下一个标记。

结盟

经过预训练后,LLM 可以准确地执行下一个标记预测,但其输出往往是重复且无趣的。对齐过程教会语言模型如何生成与人类用户的需求一致的文本。为了对齐语言模型,我们首先定义一组对齐标准(例如,有用和无害)。为了在模型中灌输这些对齐标准,我们通过监督微调 (SFT) 和从人类反馈中强化学习 (RLHF) 进行微调,它们共同构成了 InstructGPT 提出的三步对齐技术。