传统大型语言模型(LLM)微调方法通常计算密集,且在处理多样化任务时显得相对静态。为了解决这些挑战,Sakana AI 推出了一种名为 Transformer² 的新型自适应框架。Transformer² 能够在推理过程中实时调整 LLM 的权重,使其具备灵活性,能够适应各种未知任务,类似章鱼般自如应对变化。
Transformer² 的核心机制
Transformer² 的核心在于一个两阶段机制:
- 第一阶段:调度系统分析用户查询,识别任务属性。
- 第二阶段:动态混合多个通过强化学习训练的“专家”向量,这些向量专注于特定任务,从而定制化模型行为。
这种方法与传统微调方法(如 LoRA)相比,使用更少的参数且效率更高,尤其在视觉语言任务等多模态任务中展现出强大的适应性。
Transformer² 的关键技术
-
奇异值微调(SVF):这是一种新型的高效微调方法,通过提取和调整模型权重矩阵中的奇异值来实现。SVF 降低了过拟合的风险,减少了计算需求,并允许模型组合性更强。强化学习训练的专家向量能够针对特定领域任务优化模型表现。
-
自适应策略:在推理阶段,Transformer² 采用三种自适应策略,根据条件动态调整 LLM 的权重,从而实现高度自适应。
Transformer² 的优势
- 动态适应性:Transformer² 能根据环境或内部状态的变化自我评估与调整,无需外部干预。
- 参数高效:与 LoRA 等传统方法相比,SVF 使用的参数更少,但性能更高。
- 模块化能力:专家向量提供模块化能力,自适应策略根据任务需求动态选择和组合最佳向量。
- 强化学习优化:通过强化学习直接优化任务表现,无需依赖昂贵的微调过程。
- 跨模型兼容性:SVF 专家向量能在不同 LLM 模型之间迁移,利用其固有的排序结构。
实验结果
在多个 LLM 和任务的实验中,SVF 显示出优于传统微调方法(如 LoRA)的性能。Transformer² 的自适应策略在各种未知任务中显著提升了任务表现,分类专家比传统的提示工程方法更为精准。
未来展望
尽管 Transformer² 已取得显著进展,仍有改进空间。未来研究可探索模型合并技术,将多个专业模型合并成一个更强大的整体。此外,还可研究如何扩展 CEM 方法以应对更多专业领域的挑战。
总的来说,Transformer² 代表了自适应 LLM 领域的重大突破,为构建动态且自我组织的 AI 系统奠定了基础。
论文地址:https://arxiv.org/pdf/2501.06252
来源https://www.aibase.com/zh/
评论 (0)