一夜间DeepSeek在美国刷屏,新模式挑战英伟达

2025-01-26 10:26  头条

一夜间,DeepSeek在美国刷屏,适逢英伟达股价大跌,X平台上热议可能与DeepSeek成功的反身性有关,这应该让英伟达感受到了挑战,也给寒武纪提供了新思路。

昨天,AMD宣布,已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,DeepSeek-V3针对Al推理进行了优化,之所以如此是因为DeepSeek近期表现过于亮眼,CNBC甚至为DeepSeek做了40分钟专题报道。

1月24日,在专业大模型排名上,DeepSeek-R1 基准测试升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与 OpenAI o1 并列第一;在数学推理、代码生成和科学计算等核心领域的准确率达到了惊人的92.7%,超过了目前主流大语言模型的平均水平,特别是在复杂数学问题解决方面,其准确率较GPT-4提升了15.3个百分点。

最令人惊讶的是DeepSeek大模型以极低成本(557.6万美元)和少量芯片(2000块)实现了与OpenAI等巨头相媲美的性能,成本约是同行的二十分之一,与传统巨头动辄数亿美元的研发支出相比,强有力地挑战了"唯有科技巨头才能研发尖端AI"的行业共识。更令人惊讶的是低投入的高效率输出,仅用八周时间训练成功V3版本,相较于Meta训练参数量4050亿的Llama 3,Deepseek的训练效率提升了11倍。