近期,许多用户发现,中国初创公司深度求索在苹果应用商店上架了自己的大模型应用"DeepSeek",其下方评论中就有网友表示,用了一年的网页端,终于等到了App。
该App的商店页面显示,这是DeepSeek官方推出的AI助手,可"免费体验与全球领先AI模型的互动交流"。其使用开源的 DeepSeek-V3 大模型,多项性能指标对齐海外顶尖模型,可以用更快的速度、更加全面强大的功能答疑解惑,助力高效美好的生活。
App Store 页面截图。
上个月(12月26日),深度求索正式对外发布 DeepSeek-V3大模型,据其介绍,该模型在多个方面超越、追平各种开源、闭源大模型。而在DeepSeek开源社区收获的广泛好评,显示出开发者们已经用脚进行了投票。
首先是百科知识上,V3的知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)水平相比前代 DeepSeek-V2.5 (下称V2.5)显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,V3 平均表现超越其他模型。
此外,V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
值得注意的是,V3在中文和数学相关基准测试中表现尤为突出。在中文能力上,V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。而在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,V3大幅超过了所有开源闭源模型。
Deepseek-V3与多个国内外大模型的测试数据对比。"Deepseek"公众号
公开资料显示,在DeepSeek背后是量化私募巨头幻方(High-Flyer Quant),也是大厂外唯一一家储备上万张英伟达 A100芯片的公司。幻方成立于2008年,总部位于中国杭州,专注于利用数学、统计学和计算机技术进行金融市场的量化分析和交易。2024年5月,DeepSeek-V2发布,幻方量化成功转型为人工智能先驱,其超低价格甚至引发了国内大模型的价格战,DeepSeek也被迅速冠以"AI界拼多多"之称。
本文系观察者网独家稿件,未经授权,不得转载。