介绍
基于大规模预训练 LLM 的语言模型彻底改变了自然语言处理领域。因此,使机器能够以惊人的准确性理解和生成类似人类的文本。要真正欣赏 LLM 的功能,必须深入研究其内部工作原理并了解其架构的复杂性。通过揭开 LLM 语言模型架构背后的奥秘,我们可以获得有关这些模型如何处理和生成语言的宝贵见解,为语言理解,文本生成和信息提取进步铺平道路。
在这篇博客中,我们将深入探讨 LLM 的内部运作,并揭示使他们能够理解和生成语言的魔力,这种方式永远改变了人机交互的可能性。
LLM 的基础: Transformer 和自我注意机制
走进 LLM 的基础,其中 Transformer 和自我注意机制构成了构建块,使这些模型能够以非凡的能力理解和生成语言。
变形金刚(Transformer)
Vaswani 等人在 2017 年发表的“注意力就是你所需要的一切”论文中最初引入了变形金刚,彻底改变了自然语言处理领域。这些强大的架构消除了对递归神经网络(RNN)的需求,而是依靠自我注意机制来捕获输入序列中单词之间的关系。
Transformer 允许 LLM 并行处理文本,从而实现更高效和有效的语言理解。通过同时处理输入序列中的所有单词,变压器可以捕获对传统模型可能具有挑战性的长期依赖关系和上下文关系。这种并行处理使 LLM 能够从文本中提取复杂的模式和依赖关系,从而更丰富地理解语言语义。
自我关注
深入研究,我们会遇到自我关注的概念,这是基于变压器的架构的核心。自我注意允许 LLM 在处理每个单词时专注于输入序列的不同部分。
在自我注意期间,LLM 根据它们与当前正在处理的单词的相关性为不同的单词分配注意力权重。这种动态注意力机制使 LLM 能够关注关键的上下文信息,并忽略不相关或嘈杂的输入部分。
通过有选择地关注相关单词,LLM 可以有效地捕获依赖关系并提取有意义的信息,从而增强其语言理解能力。
自注意机制使得 Transformer 能够考虑到输入序列中每个单词的重要性。因此,无论距离远近,都可以有效捕捉单词之间的依赖关系。这种能力对于理解微妙的含义、保持连贯性和生成与上下文相关的回应非常有价值。
层、编码器和解码器
在 LLM 的架构中,复杂的挂毯由多层编码器和解码器编织而成,每个编码器和解码器在语言理解和生成过程中都起着至关重要的作用。这些层形成了一个层次结构,使 LLMsto 能够逐步捕捉语言的细微差别和复杂性。
编码器
这幅挂毯的核心是编码器层。编码器分析和处理输入文本,提取有意义的表示,捕捉语言的本质。这些表示形式对有关输入的语义、语法和上下文的关键信息进行编码。通过分析多层的输入文本,编码器捕获本地和全局依赖关系,使 LLM 能够理解语言的复杂性。
译码器
当编码信息流经各层时,它会到达解码器组件。解码器根据编码表示生成连贯且上下文相关的响应。解码器利用编码的数据来预测下一个单词或创建形成有意义响应的术语序列。LLM 通过每个解码器层改进和改进其响应生成,合并从输入文本中提取的上下文和信息。
LLM 的层次结构使他们能够逐层掌握语言的细微差别。在每一层,编码器和解码器都会细化文本的理解和生成,逐步捕获更复杂的关系和上下文。较低层捕获较低级别的特征,例如单词级语义,而较高层捕获更抽象和上下文的信息。这种分层方法使 LLM 能够生成连贯的、上下文适当的、语义丰富的响应。
LLM 的分层架构不仅允许从输入文本中提取含义和上下文,而且还能够生成超越单纯单词关联的响应。多层编码器和解码器之间的相互作用使 LLM 能够捕获语言的细粒度细节,包括句法结构、语义关系、甚至语气和风格的细微差别。
以注意力为核心,实现上下文理解
语言模型从注意力机制中受益匪浅,改变了我们处理语言理解的方式。让我们探讨注意力机制在语言模型中的变革作用及其对上下文意识的贡献。
语言模型从注意力机制中受益匪浅,改变了我们处理语言理解的方式。让我们探讨注意力机制在语言模型中的变革作用及其对上下文意识的贡献。
注意力的力量
语言模型中的注意力机制允许对语言进行动态和上下文感知的理解。传统的语言模型,如 n-gram 模型,将单词视为孤立的单元,而不考虑它们在句子或文档中的关系。
相比之下,注意力机制使 LLM 能够为不同的单词分配不同的权重,从而在给定的上下文中捕获它们的相关性。通过关注基本术语而忽略不相关的术语,注意力机制帮助语言模型更准确地理解文本的潜在含义。
加权相关性
注意力机制的关键优势之一是它们能够为句子中的不同单词分配不同的权重。处理注释时,语言模型通过考虑上下文中其他单词的语义和句法关系来计算其与上下文中其他单词的相关性。
例如,在句子“猫坐在垫子上”中,使用注意力机制的语言模型会为“猫”和“垫子”分配更高的权重,因为它们与坐着的动作更相关。这种加权相关性允许语言模型优先考虑最突出的信息,同时忽略不相关的细节,从而更全面地理解上下文。
对长期依赖关系进行建模
语言通常涉及跨越多个单词甚至句子的依赖关系。注意力机制擅长捕获这些长期依赖关系,使 LLM 能够无缝连接语言结构。通过关注输入序列的不同部分,语言模型可以学习在句子中相距甚远的单词之间建立有意义的关系。
这种能力在机器翻译等任务中非常宝贵,在这些任务中,保持连贯性和理解长距离的上下文至关重要。
预训练和微调:释放数据的力量
语言模型拥有独特的训练过程,使他们能够熟练地理解和生成语言。这个过程包括两个关键阶段:预训练和微调。我们将探索这些阶段背后的秘密,并揭示 LLM 如何释放数据的力量成为语言大师。
使用预先训练的变压器
import torch
from transformers import TransformerModel, AdamW
# Load the pretrained Transformer model
pretrained_model_name = 'bert-base-uncased'
pretrained_model = TransformerModel.from_pretrained(pretrained_model_name)
# Example input
input_ids = torch.tensor([[1, 2, 3, 4, 5]])
# Get the output from the pretrained model
outputs = pretrained_model(input_ids)
# Access the last hidden states or pooled output
last_hidden_states = outputs.last_hidden_state
pooled_output = outputs.pooler_output
微调
一旦 LLM 通过预培训获得了对语言的一般理解,他们就会进入微调阶段,在那里他们根据特定的任务或领域量身定制。微调涉及将 LLM 公开给特定于所需作业的标记数据,例如情绪分析或问答。这种标记的数据使 LLM 能够根据任务的特定细微差别和要求调整其预先训练的知识。
在微调过程中,LLM 完善了他们的语言理解和生成能力,专门研究特定领域的语言模式和上下文细微差别。通过对标记数据进行训练,LLM 可以更深入地了解特定任务的复杂性,使他们能够提供更准确和上下文相关的响应。
微调变压器
import torch
from transformers import TransformerModel, AdamW
# Load the pretrained Transformer model
pretrained_model_name = 'bert-base-uncased'
pretrained_model = TransformerModel.from_pretrained(pretrained_model_name)
# Modify the pretrained model for a specific downstream task
pretrained_model.config.num_labels = 2 # Number of labels for the task
# Example input
input_ids = torch.tensor([[1, 2, 3, 4, 5]])
labels = torch.tensor([1])
# Define the fine-tuning optimizer and loss function
optimizer = AdamW(pretrained_model.parameters(), lr=1e-5)
loss_fn = torch.nn.CrossEntropyLoss()
# Fine-tuning loop
for epoch in range(num_epochs):
# Forward pass
outputs = pretrained_model(input_ids)
logits = outputs.logits
# Compute loss
loss = loss_fn(logits.view(-1, 2), labels.view(-1))
# Backward pass and optimization
optimizer.zero_grad()
loss.backward()
optimizer.step()
# Print the loss for monitoring
print(f"Epoch {epoch+1}/{num_epochs} - Loss: {loss.item():.4f}")
这个两阶段培训过程的美妙之处在于它能够利用数据的力量。对大量未标记文本数据的预训练使 LLM 对语言有一般的理解,而对标记数据的微调可以完善他们对特定任务的知识。这种组合使 LLM 能够拥有广泛的知识基础,同时在特定领域表现出色,提供卓越的语言理解和生成能力。
LLM 以外的现代建筑进步
超越传统 LLM 的语言模型架构的最新进展展示了 GPT-3,T5 和 BERT 等模型的卓越功能。我们将探讨这些模型如何突破语言理解和生成的界限,在各个领域开辟新的可能性。
1、GPT-3
GPT-3,生成式预训练 Transformer ,已成为一种开创性的语言模型架构,彻底改变了自然语言的理解和生成。GPT-3 的架构建立在变压器模型之上,包含许多参数以实现卓越的性能。
GPT-3 的架构
GPT-3 包括一堆变压器编码器层。每一层由多头自注意力机制和前馈神经网络组成。注意力机制允许模型捕获单词之间的依赖关系和关系,同时前馈网络处理和转换编码表示。GPT-3 的关键创新在于其巨大的规模,拥有惊人的 175 亿个参数,使其能够捕获大量的语言知识。
代码实现
您可以使用 OpenAI API 与 openAI 的 GPT-3 模型进行交互。下面说明了如何使用 GPT-3 生成文本。
import openai
# Set up your OpenAI API credentials
openai.api_key = 'YOUR_API_KEY'
# Define the prompt for text generation
prompt = ""
# Make a request to GPT-3 for text generation
response = openai.Completion.create(
engine="text-davinci-003",
prompt=prompt,
max_tokens=100,
temperature=0.6
)
# Retrieve the generated text from the API response
generated_text = response.choices[0].text
# Print the generated text
print(generated_text)
2、T5
文本到文本传输 Transformer (T5) 代表了语言模型体系结构的突破性进步。它通过将它们构建为文本到文本的转换来对各种自然语言处理任务采取统一的方法。此方法使单个模型能够处理多个任务,包括文本分类、摘要和问答。
通过将特定于任务的架构统一到单个模型中,T5 实现了令人印象深刻的性能和效率,简化了模型开发和部署过程。
T5的架构
T5 基于变压器架构构建,由编码器-解码器结构组成。与针对特定任务微调的传统模型不同,T5 使用多任务目标进行训练,其中一组不同的函数被转换为文本到文本的转换。在训练期间,该模型学习将文本输入映射到文本输出,使其具有高度适应性,能够执行广泛的 NLP 任务,包括文本分类、摘要、翻译等。
代码实现
Transformer 库提供了一个简单的接口来与不同的 Transformer 模型(包括 T5)进行交互,可以在 Python 中使用 T5 模型。下面说明了如何使用 T5 执行文本到文本任务。
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")
input_ids = tokenizer("translate English to German: The house is wonderful.",
return_tensors="pt").input_ids
# Generate the translation using T5
outputs = model.generate(input_ids)
# Print the generated text
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
3、BERT
BERT,来自变压器的双向编码器表示,在语言理解方面引入了革命性的转变。通过利用双向训练,BERT 从左右上下文中捕获上下文,从而更深入地理解语言语义。
BERT 显著提高了命名实体识别、情感分析和自然语言推理等任务的性能。它通过细粒度的上下文理解来理解语言的细微差别的能力使其成为现代自然语言处理的基石。
BERT的架构
BERT 由一堆变压器编码器层组成。它利用双向训练,使模型能够从左侧和右侧上下文中捕获上下文。这种双向方法提供了对语言语义的更深入理解。它还允许 BERT 在命名实体识别、情绪分析、问答等任务中表现出色。BERT 还包含独特的标记,包括用于分类的 [CLS] 和用于分隔句子或文档边界的 [SEP]。
代码实现
变压器库提供了一个简单的界面来与各种变压器模型进行交互。它还包括 BERT,可以在Python 中使用。以下是如何使用 BERT 进行语言理解的图示。
from transformers import BertTokenizer, BertForSequenceClassification
# Load the BERT model and tokenizer
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# Define the input text
input_text = "Hello, my dog is cute"
# Tokenize the input text and convert into Pytorch tensor
input_ids = tokenizer.encode(input_text, add_special_tokens=True)
input_tensors = torch.tensor([input_ids])
# Make the model prediction
outputs = model(input_tensors)
# Print the predicted label
print("Predicted label:", torch.argmax(outputs[0]).item())
结论
LLM 的内部工作原理揭示了一个复杂的架构。因此,使这些模型能够以无与伦比的准确性和多功能性理解和生成语言。
每个组件在语言理解和生成中都至关重要,从 Transformer 和自我注意机制到分层编码器和解码器。随着我们揭开LLM架构背后的秘密,我们对它们改变各个行业的能力和潜力有了更深入的了解。
每个组件在语言理解和生成中都至关重要,从 Transformer 和自我注意机制到分层编码器和解码器。随着我们揭开LLM架构背后的秘密,我们对它们改变各个行业的能力和潜力有了更深入的了解。
关键要点:
● LLM 由变压器和自我注意机制提供支持,彻底改变了自然语言处理。因此,使机器能够以惊人的准确性理解和生成类似人类的文本。
● LLM 的分层架构包括编码器和解码器。这允许从输入文本中提取含义和上下文,从而生成连贯且与上下文相关的响应。
● 预训练和微调是 LLM 培训过程中的关键阶段。 预训练使模型能够从未标记的文本数据中获得一般语言理解,同时使用标记数据微调模型以适应特定任务,完善其知识和专业化。
常见问题
问题 1.什么是 LLM,它们与传统语言模型有何不同?
答:LLM 或基于大规模预训练的语言模型是在大量文本数据上训练的高级模型。由于其复杂的架构和训练过程,它们与传统语言模型的不同之处在于它们能够非常准确地理解和生成文本。
问题 2.变压器在 LLM 中的作用是什么?
答:Transformer 构成了 LLM 架构的核心,能够并行处理和捕获语言中的复杂关系。他们通过增强模型理解和生成文本的能力,彻底改变了自然语言处理领域。
问题 3.自我注意机制如何促进 LLM?
答:自我注意机制允许 LLM 为不同的单词分配不同的权重,捕捉它们在上下文中的相关性。它们使模型能够专注于相关信息并理解单词之间的上下文关系。
问题 4.LLM 如何从预培训和微调中受益?
答:预训练使 LLM 暴露于大量未标记的文本数据,使他们能够获得一般语言理解。微调使用标记数据针对特定任务定制模型,完善其知识和专业化。这个两阶段的培训过程提高了他们在各个领域的表现。
问题 5.LLM 的内部工作如何影响现实世界的应用程序?
答:LLM 的内部运作已经彻底改变了各个行业,包括自然语言理解,情感分析,语言翻译等。它们为人机交互、自动化内容生成和改进的信息检索系统开辟了新的可能性。从理解LLM 架构中获得的见解继续推动自然语言处理的进步。
原文链接:https://www.analyticsvidhya.com/blog/2023/07/inner-workings-of-llms/
非常感谢大家的阅读,小Mo在这里祝你在末来的 Python 学习职业生涯中一切顺利!
后续小Mo会不定期更新书籍、视频等学习资源,以上这些书籍资料也可通过关注微信公众号免费获取哦!
欢迎关注我们的微信公众号:MomodelAl
同时,欢迎使用「Mo AI编程」微信小程序
以及登录官网,了解更多信息:Mo 人工智能教育实训平台
Mo,发现意外,创造可能
注:部分资源来源于互联网,若有侵权,请直接联系作者删除。
评论 (0)