硅谷惊恐了!胡锡进:中国AI让美方观察家几近破防(2)

2025-01-26 10:02  胡锡进

这些也是那名Meta员工"破防"的原因:使用了高算力H100 GPU的Meta Llama 3系列模型,其计算量足可训练DeepSeek-V3至少15次,但是最终表现却不及DeepSeek。美国《财富》杂志毫不掩饰地嘲讽道:美国刚刚承诺投入数千亿美元来捍卫其人工智能领导地位,一家"预算低得可笑"的中国初创公司可能已经破坏了这些希望。

DeepSeek的大胆创新震惊了业内,虽然限于硬件设施以及成本投入等原因,它与美国的先进AI大模型比起来还有点"偏科",但是却给AI行业带来了不少深度思考,它似乎在开创一条AI发展另辟蹊径的可能路线。

▲扎克伯格2024年7月表示,开源是AI未来的方向,美国要领先中国AI数年的目标不现实。(图源:上观新闻)

大家知道,AI大模型领域的三大要素是算法、数据和算力。算力如同人大脑的神经元,一个成熟的大模型需要训练,理论上说,基础算力越大,大模型就应该越聪明。所以美国各团队之间形成了对基础算力无穷无尽的追求和比拼。马斯克旗下xAI的超级计算数据中心装配了10万颗英伟达H100 GPU芯片,堪称当今世界最强大的AI训练集群之一 。OpenAI创始人奥特曼也不甘示弱,表示将投入1000亿美金,在得州建设10座数据中心,未来4年还要耗资5000亿美金在全美打造20个超算集群。人们形成了一个印象:谁的GPU芯片集群大,谁就将稳操胜券。

然而有一种可能是,基础算力的无穷堆积不排除是阶段性浪费,这种浪费不仅是芯片的过量使用,还有对电力的过量消耗,AI沿着这个路线狂奔,前方究竟是什么,是否存在陷阱和弯路,都是未知数。一个实际情况是,人类的现实需求是有限的,而且是独特的,基础算力应当与算法、数据形成最佳组合,而实现这样的最优解,是真正的考验。

DeepSeek的意义在于它没有跟着美国AI公司带动的潮流"卷算力",它也卷不动,但它却在创造组合的最优解方向做出大手笔开拓。换句话说,它以极低成本打开了AI探索的一个新方向,展示了新的可能性,在具体落地实现和理论创新之间找到了一个平衡路径。DeepSeek 大模型的训练成本仅557万美元,价格仅有GPT-4的1%,无论是这样的低成本还是注重细节的技术,都更契合先进科技一边服务现实,一边滚动发展的普世逻辑。