腾讯开源“混元-A13B”:动态推理大模型，主打“会思考”

腾讯近日宣布开源其全新语言模型“混元-A13B”，该模型引入了创新的动态推理方法，使其能够根据任务复杂性在快速和深度“思考”之间智能切换。

腾讯开源“混元-A13B”:动态推理大模型，主打“会思考”-Mo 动态

核心亮点:动态推理与MoE架构

“混元-A13B”的核心优势在于其实时调整推理深度的能力。对于简单的查询，模型会启用快速模式，以最少的推理步骤迅速响应;而面对更复杂的问题，它则能激活涉及多步骤思考的深度推理过程。用户还可以通过特定命令来手动控制这种行为，使用“/think”启用深度模式，或使用“/no_think”关闭深度模式。

该模型采用了混合专家（MoE）架构，总参数量高达800亿，但在实际推理过程中，仅有130亿个参数处于活跃状态，这有助于提高运行效率。此外，“混元-A13B”支持最高达256，000个标记的上下文窗口，处理长文本的能力显著增强。

腾讯开源“混元-A13B”:动态推理大模型，主打“会思考”-Mo 动态

训练数据与性能表现

根据腾讯发布的技术报告，“混元-A13B”已在20万亿个token上进行训练，并针对推理任务及更广泛的用例进行了优化。为了提升模型在科学任务中的可靠性，腾讯特别从STEM（科学、技术、工程、数学）领域收集了2500亿个token进行训练，数据涵盖数学教科书、考试、GitHub开源代码、逻辑谜题以及从中学到大学的科学文本。

腾讯声称，其“混元-A13B-Instruct”版本能够与OpenAI、Deepseek和阿里巴巴Qwen等领先模型相媲美。报告指出，在2024年美国数学竞赛AIME中，“混元-A13B”的准确率达到了87.3%，领先于OpenAI o1的74.3%。

然而，需要注意的是，从2025年的结果来看，OpenAI o1在该轮测试中领先近3%。此外，腾讯的比较数据基于Deepseek-R1的过时1月版本，而Deepseek在5月发布的版本在AIME2024和2025中的表现更优异，分别取得了91.4分和87.5分。

来源https://www.aibase.com/zh/

腾讯开源“混元-A13B”:动态推理大模型，主打“会思考”

评论 (0)

立刻扫码参与活动

热门文章

换一批

MO 圈子

推荐课程

换一批

推荐项目

换一批

【🔥AI日报】：Qwen-Image-i2L可零门槛训练LoRA；智谱AI输入法全新发布；灵光推科普动画生成功能

AI 平台决战!Adobe 重磅宣布:Photoshop、Acrobat 等核心功能集成 ChatGPT

“Vibe”一下就能生成App！Cloudflare开源VibeSDK：零代码秒部署全栈应用，GitHub星标破4k

AI 辅助学习新星:Oboe 获 a16z 领投1600万美元 A 轮融资，加速规模化增长

腾讯开源“混元-A13B”:动态推理大模型，主打“会思考”

评论 (0)

立刻扫码参与活动

热门文章 换一批

MO 圈子

推荐课程 换一批

推荐项目 换一批

猜你喜欢

【🔥AI日报】：Qwen-Image-i2L可零门槛训练LoRA；智谱AI输入法全新发布；灵光推科普动画生成功能

AI 平台决战!Adobe 重磅宣布:Photoshop、Acrobat 等核心功能集成 ChatGPT

“Vibe”一下就能生成App！Cloudflare开源VibeSDK：零代码秒部署全栈应用，GitHub星标破4k

AI 辅助学习新星:Oboe 获 a16z 领投1600万美元 A 轮融资，加速规模化增长

在动态内搜索

Momodel

热门文章

换一批

推荐课程

换一批

推荐项目

换一批