AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士(3)

2022-07-01 17:28     量子位

与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。

缺点,是可能出现AI用错误的步骤得到正确答案的情况。

优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。

到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。

AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。

AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士

最后还有Majority Voting多数表决方法,也是今年3月才发表的。

让AI多次回答同一个题目,选择答案中出现频率最高的。

AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。

AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士

阅读下一篇

美报废卫星环绕地球近40年后坠落,在阿拉斯加海岸附近

美国报废卫星环绕地球近40年后落下:重2450公斤 坠落点公布 据美联社1月9日报道,美国国家航空航天局(NASA)当天表示,美国一颗报废的科学卫星在环绕地球近40年后,已在阿拉斯加海岸附近