马斯克狂吹的Grok 3能挤进全球模型Top5吗？

万众瞩目的DeepSeek-R1只能排在区区第五。

此外，Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型，包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。

推理能力方面，具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning也超越了DeepSeek-R1和OpenAI的o3 mini等的推理模型。

甚至还能编程，不仅能生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码，并且还能直接运行。有研究人员检查后发现，Grok 3给出的答案完全正确！

还能根据输入者要求，制作游戏。xAI现场输入要求，制作一个俄罗斯方块结合宝石迷阵的游戏，界面虽然简洁，但游戏完全运行流畅，没有问题。

同时，发布会还推出Grok 3的第一代智能体，DeepSearch，能够在互联网上进行更深入的搜索。它不仅可以搜索网页，查找现有资料，还可以"推测用户的真正意图"并加以思考，在经过交叉对比不同信源后，确保"能够返回正确的信息"。

从上面一堆数据来看，可以说，迄今为止最强推理模型，全部败给了Grok 3，从这点来说，Grok 3确实是"地球上最聪明的AI"。

马斯克狂吹的Grok 3能挤进全球模型Top5吗？(2)