在许多第三方测试中,深度求索本周最新发布的推理模型DeepSeek-R1同样超越了OpenAI的最新模型o1。
Deepseek-V3与多个国内外大模型的测试数据对比 "Deepseek"公众号
"深度求索的新模型实在令人印象非常深刻。"微软首席执行官萨蒂亚·纳德拉22日在达沃斯世界经济论坛上感慨,"他们能如此高效地开发出一款开源模型,在推理计算方面表现出色,计算效率极高。我们必须极其严肃地看待中国的这些进展。"
CNBC称,令人瞩目的是,在取得这样出色成绩的背后,是美国政府对中国实施的严格半导体限制,这些限制使中国无法获取英伟达H100等最强大的芯片。中方的最新进展表明,深度求索要么找到了绕过相关规则的方法,要么说明美国的出口管制并未达到华盛顿预期的限制效果。
标杆资本(Benchmark)普通合伙人切坦·普塔贡塔表示:"他们采用优秀的预训练大型模型,并使用蒸馏技术(distillation),利用大型模型来提升小型模型的特定能力,这是一种非常具有成本效益的方法。"
不仅仅是DeepSeek一家。其他中国AI模型也凭借有限资源在竞争中占据了一席之地。李开复的初创公司零一万物.AI成立八个月就成为独角兽公司,2024年创造近1400万美元收入,其模型训练成本仅为300万美元,远低于GPT-4的8000万到1亿美元。阿里巴巴的千问也大幅降低了大型语言模型的成本。
美国AI初创企业Perplexity首席执行官阿拉文德·斯里尼瓦斯说:"需求是发明之母。因为他们必须想出变通办法,结果实际上构建出了效率更高的东西。"
美国《纽约时报》也在1月24日的文章中写到,深度求索开发的AI系统可与OpenAI和谷歌等公司的尖端聊天机器人相媲美,能做到这点本已是一个里程碑,但这个名为DeepSeek-V3的大模型背后的团队描述了一个更大的进步--他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。
自从OpenAI在2022年发布了ChatGPT,引发人工智能热潮以来,许多专家和投资者普遍认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。