今年1月,DeepSeek发布的R1模型不仅是一次普通的AI公告,更被誉为科技行业的“分水岭”,其影响力震动了整个科技行业,迫使行业领导者重新思考AI开发的基本方法。DeepSeek的非凡成就并非源于新颖的功能,而是它以极低的成本实现了与科技巨头相媲美的成果,这标志着AI发展正沿着“效率”和“计算”两条并行轨道快速前进。

在约束中创新:低成本实现高性能

DeepSeek的异军突起令人瞩目,它展现了即使在重大限制下,创新也能蓬勃发展的能力。面对美国对尖端AI芯片的出口管制,DeepSeek被迫寻找AI发展的其他途径。当美国公司通过更强大的硬件、更大的模型和更优质的数据追求性能提升时,DeepSeek则专注于优化现有资源,以卓越的执行力将已知理念付诸实践,这本身就是一种创新。

这种效率至上的理念带来了令人瞩目的成果。据报道,DeepSeek的R1模型性能可媲美OpenAI,但运营成本仅为后者的5%到10%。更令人震惊的是,DeepSeek前身V3的最终训练运行成本仅为600万美元,与美国竞争对手动辄数千万甚至数亿美元的投入相比,这笔预算被特斯拉前AI科学家Andrej Karpathy称为“笑话”。据报道,OpenAI花费5亿美元训练其最新的“Orion”模型,而DeepSeek仅花费560万美元就取得了卓越的基准测试结果,不到OpenAI投资的1.2%。

值得注意的是,DeepSeek实现这些成果并非完全处于芯片劣势。美国最初的出口管制主要针对计算能力,而非内存和网络——而内存和网络是AI发展的关键要素。这意味着DeepSeek使用的芯片具备良好的网络和内存功能,使其能够在多个单元之间并行执行操作,这是高效运行大型模型的关键策略。再加上中国在人工智能基础设施垂直堆栈上的大力推动,进一步加速了这种创新。

实用主义数据策略:合成数据与模型架构优化

除了硬件优化,DeepSeek的训练数据方法也独具一格。据报道,DeepSeek并非仅仅依赖从网络抓取的内容,而是利用了大量的合成数据和其他专有模型的输出,这正是模型蒸馏的经典示例。尽管这种方法可能引发西方企业客户的数据隐私和治理担忧,但它凸显了DeepSeek注重结果而非过程的务实作风。

有效利用合成数据是DeepSeek的关键差异化因素。DeepSeek等基于Transformer且采用混合专家(MoE)架构的模型在整合合成数据时更加稳健,而传统密集架构的模型若过度使用合成数据可能导致性能下降甚至“模型崩溃”。DeepSeek的工程团队在最初规划阶段就专门设计了模型架构,将合成数据集成纳入考量,从而在不牺牲性能的情况下充分利用合成数据的成本效益。

市场反响:重塑AI行业格局

DeepSeek的崛起已引发行业领导者的实质性战略转变。例如,OpenAI首席执行官Sam Altman近期宣布计划发布公司自2019年以来首个“开放权重”语言模型。DeepSeek和Llama的成功似乎给OpenAI带来了巨大冲击。DeepSeek推出仅一个月后,Altman便承认OpenAI在开源AI方面“站在了历史的错误一边”。

面对每年高达70亿至80亿美元的运营成本,DeepSeek等高效替代方案带来的经济压力已不容忽视。正如人工智能学者李开复所言,竞争对手的免费开源模型正迫使OpenAI做出改变。尽管OpenAI进行了400亿美元的巨额融资,公司估值达到3000亿美元,但其方法比DeepSeek耗费更多资源的根本挑战依然存在。

超越模型训练:迈向“测试时计算”和自主评估

DeepSeek还加速了向“测试时计算”(TTC)的转变。随着预训练模型对公共数据利用接近饱和,数据稀缺正在减缓预训练的进一步改进。为解决此问题,DeepSeek宣布与清华大学合作,实现“自我原则性评论调优”(SPCT),即AI开发自己的内容评判规则,并利用这些规则提供详细评论,包含内置的“评委”实时评估AI的答案。

这项进展是AI系统自主评估和改进运动的一部分,模型利用推理时间来改进结果,而非简单地增大模型规模。DeepSeek将其系统称为“DeepSeek-GRM”(通用奖励模型)。然而,这种方法也伴随着风险:如果AI制定自己的评判标准,可能偏离人类价值观、伦理道德,甚至强化错误的假设或幻觉,引发对AI自主判断的深层担忧。尽管如此,DeepSeek再次在他人工作的基础上,创建了可能是SPCT在商业上的第一个全栈应用程序。这可能标志着AI自主性的重大转变,但仍需严格的审计、透明度和保障措施。

展望未来:适应与变革

综合来看,DeepSeek的崛起预示着人工智能行业将朝着并行创新轨道迈进。在各大公司持续构建更强大的计算集群的同时,它们也将重点关注通过软件工程和模型架构改进来提升效率,以应对AI能耗带来的挑战。微软已停止了全球多个地区的数据中心建设,转向更加分布式、高效的基础设施建设,并计划重新分配资源以应对DeepSeek带来的效率提升。Meta也发布了首次采用MoE架构的Llama4模型系列,并将其与DeepSeek模型进行基准测试,这标志着中国AI模型已成为硅谷公司值得参考的基准。

颇具讽刺意味的是,美国原本旨在维护其AI主导地位的制裁,反而加速了其试图遏制的创新。展望未来,随着行业在全球范围内的持续发展,所有参与者的适应能力将成为关键。政策、人员和市场反应将继续改变基本规则,我们彼此之间如何学习,以及如何应对,值得持续关注。
来源https://www.aibase.com/zh/