真正能够像人类一样进行逻辑推理的大模型,距离我们还有多远?
随着OpenAI推出更侧重推理能力的 o1大模型,推理大模型正成为行业新的竞争方向。本周一,月之暗面推出的Kimi探索版,成为国产推理大模型的最新代表。
让大模型学会推理的诀窍是什么?各家厂商都提到了一个关键词--反思。通过将复杂问题一步步拆分,并且对每一步的输出结果进行反思检验,是降低大模型幻觉的有效途径。而这样的思路,看上去与人类的逻辑推理确实有一定相似性。
不过经过实测,我们发现现有大模型的逻辑推理能力仍然难以让人满意,这背后可能仍然绕不开大模型底层原理的限制。
但有趣的是,为了提高推理能力,国产大模型在使用工具的路上越走越远,反而可能是当下最现实的大模型落地途径之一。
推理大模型,真的会做题吗?
上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上线。
据官方介绍,Kimi探索版具备AI自主搜索能力,可以模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,提供更全面和准确的答案,帮助你更高效地完成分析调研等复杂任务。
那么实测来看,Kimi探索版实力究竟如何?
谈到推理能力,人们往往最先想到的是数学。很多测评都使用高等数学题目去测试大模型的推理能力,并且往往能够取得不错的效果。
不过从实用层面来看,大部分用户的需求并不是求解高数,而是解决日常生活中的应用题。
所以,我们打算让Kimi替最近上市的新车乐道L60算笔账。
蔚来换电体系下独特的BaaS电池租赁方案,让不少消费者在计算用车成本的时候也感到头疼,乐道L60发布会后,到底怎么买更划算引起了网友热烈讨论,不少网友甚至搬出了专业的会计知识。
我们问Kimi的问题是这样的:分析乐道L60车辆采用BaaS方案下的每年用车成本,BaaS方案和电池买断方案哪个更划算。
可以看到,Kimi正确理解了BaaS的含义,虽然没有意识到乐道是换电而不是充电,不过按充电成本算也没有太大出入,整个逻辑基本是清晰的。
问题在于,虽然一开始提到了购车价格,但是在总用车成本的计算上,Kimi却并没有加上购车成本的折旧,没达到我们想要的效果。
于是,我们要求Kimi把折旧成本考虑进去,结果是这样的:
在最后的结论里,Kimi对购车价格和折旧成本进行了重复计算,显然是错误的。而这个错误,恰恰说明Kimi对于成本和折旧的逻辑理解还存在不足。
作为对比,我们用ChatGPT-4o mini测试了相同的问题,发现4o mini可以正确理解包括折旧、BaaS在内的各项成本的逻辑,可是却没有正确获得车辆的价格。
也就是说,Kimi并没有表现出比GPT-4更好的逻辑能力,但是在中文信息检索能力上却更加优秀。事实上,后者也是Kimi真正的强项所在,后面我们会再次讨论这一点。
不过在此之前,我们还发现了一个相对小众的选手--学而思九章大模型,也相当值得关注。
提到学而思,大家都知道它是以教培起家,尤其擅长数学教学。而九章大模型也继承了学而思的特长,专攻教育领域,并且宣称有更好的数学能力。
当我们以上述问题测试九章大模型时,它的表现非常出色--不仅能正确理解车辆残值、成本均摊等逻辑概念,还具体获得了乐道BaaS"满四减一"优惠、实际电耗水平等信息,因此给出的答案更能解决问题。
但美中不足的是,它并没有给出车辆折旧的具体数字,导致最终没有输出一个明确的答案。
这究竟是一个缺点,还是优点?其实从逻辑来看,九章这么做的原因,应该是同样出于"具体问题具体分析"的理念,由于自己没办法确定相关车辆的具体折旧率,因此就直接说明自己的不确定,充分保证了答案的严谨性。
看上去,九章的确更像是一个严谨、可靠的数学模型。
AI可能还没有学会推理
强化大语言模型的推理能力,在技术上是怎么实现的?大家都提到了一个关键词--反思。
月之暗面方面指出:就像人一样,Kimi探索版可以借助反思能力,来提升和改进回答的质量。面对开放探索型问题,Kimi探索版发现第一次回答的信息存在缺失,会主动补充回答更多。面对数字相关的搜索问题,Kimi了解更多信息后如果发现了数据冲突,则会及时补充提供多方视角的信息供参考决策。
从上面的演示中可以看到,Kimi会把自己的思考过程展示出来,让用户明确看到自己进行了一次补充检索。
九章大模型负责人白锦峰进一步解释说,同大模型类似,人类在幼年时期同样缺乏逻辑能力,会产生幻觉。但随着人类的成长,会逐渐学会逻辑推理,让自己的观点在逻辑上自洽,并拿观点去跟已经存在的事实进行校验,从而消除幻觉。
白锦峰表示,目前大语言模型的第一性原理是Next Token Prediction,也就是通过预测下一个字符的方式给出答案,而这种预测是基于概率的,这决定了大模型一定会有出错的概率。
为了提升准确率,目前的推理大模型普遍应用了CoT(思维链)和Voting&Verifier两种算法,前者将复杂问题拆分为多个步骤,后者则对于每一步的结果进行反思,多做几次检验来找到一致性最高的答案。
这两种算法模仿了人类思维方式中的校验过程,但其实仍然是基于概率,而不是逻辑推理。白锦峰指出,为了真正保证结果的正确性,大模型还需要应用定律的技术,例如学会使用数学定律来解决问题。
但是在应用定律方面,大模型仍然存在根本性的难点。白锦峰举例说,像加法交换律(a+b=b+a)这样简单的定律,人类可以直接理解公式,但是大模型只能通过穷举大量的案例(1+2=2+1等)来悟到这个规律。
因此,对于当前的大模型技术能否真正实现推理能力,很多人并不乐观。美国著名AI科学家Yann LeCun近日就尖锐地表示,当下的模型"似乎在进行推理,但实际上它们只是在重复已经训练过的信息",按照现有训练方式,无论多少GPU都不会让我们实现AGI。
苹果AI团队的最新研究也认为:大语言模型在相同问题的不同版本上表现出高性能差异、难度略微增加时性能大幅下降以及对无关信息的敏感性,表明其推理能力很脆弱。它可能更像是复杂的模式匹配,而不是真正的逻辑推理。
从大模型到Agent
尽管以AGI的标准来衡量,目前的推理大模型还远远不够完善,但是从实用层面,国产大模型正在这轮推理竞赛展现出了一个重要进化--调用工具。
例如,九章大模型在解决数学问题的时候,采用了一个看似原始却非常实用的办法--直接调用计算器。就像人类一样,学会使用工具,也是AI应当具备的能力。
Kimi调用的工具则是搜索引擎。Kimi探索版在回答问题时,最高能够搜索并精读500个网页,相较于此前版本提升了10倍。
而且我们在实测中发现,Kimi列出的参考页面普遍都来自较为权威的站点,内容质量也相对较高。在开放性的问题中,Kimi能够充分保证输出的客观和准确性,这才是探索版给我们印象最深刻的地方。
Kimi 探索版产品负责人表示,"如果 Kimi 搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。未来搜索引擎会成为AI更擅长调用的工具,人只需要专注于提出好的问题,AI就可以结合模型本身的能力在庞大的互联网中自主海量搜索,不断反思迭代,更精准地找到所需答案。"
对于大部分普通用户来说,这话并不夸张。
从本质上讲,调用工具使得这些模型更接近于AI Agent的概念。尤其是对于Kimi探索版,相当于替用户完成了网页检索的任务,并且能够帮助用户去除搜索引擎中大量的低质量和营销内容,实用性极强。
如果说,当前的AI理论本身就限制了大模型难以实现真正的逻辑能力,那么在理论突破之前,如何最大化模型的实用性,让AI从Copilot向Agent尽可能地迈进,就是当下最重要的命题。
此外,从Kimi、九章的表现来看,国产大模型如今继续提升实用性的方式,并不一定是增加规模,或者提出什么独特的算法,而是通过专注于自己最擅长的垂直领域来提升准确率,并形成独特护城河。
白锦峰举例说,对于教育大模型来说,能答对问题和能教好学生之间,仍然存在区别。例如同样是除法,用除号还是用分号来表示,在教学中就是不一样的。对于小学生来说,因为还没有学过分数,所以用分号就是错误的回答。因此,学而思利用自己长期积累的教材和教师资源,能够做出更好的教育大模型。
专注垂直,也能够让成本更加可控。学而思方面人士向观察者网直言,大模型初期投入是不可避免的,目前也看不到直接的回报,但投入又是必须要做的,否则等到技术成熟再发力,早就失去了上牌桌的机会。
但是学而思并没有选择去自己研发基座大模型,而是基于开源大模型的基础,在百度云上进行千卡规模的训练,以可控的成本实现了不错的性能。
因此,国产推理大模型当下给我们的最大启示,或许仍然是实用为王。