对标 OpenAI o1 正式版的国产大模型来了!
近日,Meta 的工程师们在匿名社交平台 TeamBlind 上吐露心声,揭示了中国公司 DeepSeek 所研发的 AI 模型 R1所带来的巨大压力。DeepSeek 被认为是全球首个与 OpenAI 的 o1模型相提并论的开源 AI 模型,而与 OpenAI 相比,R1不仅开源程度更高,而且训练成本低得惊人,仅为550万美元。
1 月 20 日晚,DeepSeek(深度求索)公司发布推理模型 DeepSeek-R1 正式版,同步开源模型权重,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
网友热评:这,才是真正的OpenAI。能力相当于一个月 200 美元的 ChatGPT o1 版本,却完全免费。
不止如此,DeepSeek 一同开源的还有「技术报告」,那些训练 R1 时踩过的坑、做过的事通通讲给你听,只为铺平 AGI 的路。
第一时间阅读这份技术报告后,英伟达高级研究科学家 Jim Fan 带来了新鲜解读,值得我们大声齐读:
「我们生活在这样一个时代:由非美国公司保持 OpenAI 最初的使命——做真正开放的前沿研究、为所有人赋能。这似乎讲不通,但戏剧性的往往最有可能发生。
DeepSeek-R1 不仅开源了大量模型,还泄露了所有训练秘密。他们可能是第一个显示 RL(强化学习)飞轮发挥主要作用、持续增长的 OSS 项目。
影响可以通过『内部实现了 ASI』或『草莓计划』等神话名称来实现。也可以通过简单地转储原始算法和 matplotlib 学习曲线来产生影响。」
中国公司 DeepSeek,正在实现赶超 OpenAI 的使命。
相比之下,Meta 的高管年薪常常超过整个 DeepSeek V3的训练成本,这使得 Meta 的管理层倍感尴尬。
据内部消息透露,DeepSeek V3的出现已在去年令 Meta 感受到不小的压力。Meta 的工程师们正在加紧时间,努力分析 DeepSeek 的技术,希望能够尽快复制其中的关键技术。过去,全球的 AI 研究者们都在追逐美国的大模型,而如今,局势发生了变化,美国工程师们开始逆向工程中国的 AI 技术。
DeepSeek 不仅在基准测试中超过了 Meta 的 Llama4,而且在多个领域的表现上也令业界瞩目。DeepSeek 通过大规模强化学习(RL)和未经过监督微调(SFT)等技术,实现了极高的推理性能。这种技术自信让美国的部分网友开始反思中国在 AI 领域的迅速崛起。
划重点:
🌟 DeepSeek R1模型的训练成本仅为550万美元,性能可与 OpenAI 的 o1相媲美。
👨💻 Meta 的高管薪资超过 DeepSeek 的训练成本,管理层对此感到压力巨大。
📈 DeepSeek 的成功引发了美国科技公司的恐慌,挑战了美国在 AI 领域的主导地位。
评论 (0)