万众瞩目的DeepSeek-R1只能排在区区第五。
此外,Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。

推理能力方面,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning也超越了DeepSeek-R1和OpenAI的o3 mini等的推理模型。

甚至还能编程,不仅能生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码,并且还能直接运行。有研究人员检查后发现,Grok 3给出的答案完全正确!

还能根据输入者要求,制作游戏。xAI现场输入要求,制作一个俄罗斯方块结合宝石迷阵的游戏,界面虽然简洁,但游戏完全运行流畅,没有问题。

同时,发布会还推出Grok 3的第一代智能体,DeepSearch,能够在互联网上进行更深入的搜索。它不仅可以搜索网页,查找现有资料,还可以"推测用户的真正意图"并加以思考,在经过交叉对比不同信源后,确保"能够返回正确的信息"。
从上面一堆数据来看,可以说,迄今为止最强推理模型,全部败给了Grok 3,从这点来说,Grok 3确实是"地球上最聪明的AI"。










