DeepSeek推出App版本，使用V3大模型，网友：终于等到了

近期，许多用户发现，中国初创公司深度求索在苹果应用商店上架了自己的大模型应用"DeepSeek"，其下方评论中就有网友表示，用了一年的网页端，终于等到了App。

该App的商店页面显示，这是DeepSeek官方推出的AI助手，可"免费体验与全球领先AI模型的互动交流"。其使用开源的 DeepSeek-V3 大模型，多项性能指标对齐海外顶尖模型，可以用更快的速度、更加全面强大的功能答疑解惑，助力高效美好的生活。

App Store 页面截图。

上个月（12月26日），深度求索正式对外发布 DeepSeek-V3大模型，据其介绍，该模型在多个方面超越、追平各种开源、闭源大模型。而在DeepSeek开源社区收获的广泛好评，显示出开发者们已经用脚进行了投票。

首先是百科知识上，V3的知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）水平相比前代 DeepSeek-V2.5 （下称V2.5）显著提升，接近当前表现最好的模型 Claude-3.5-Sonnet-1022。长文本测评方面，在DROP、FRAMES 和 LongBench v2 上，V3 平均表现超越其他模型。

此外，V3 在算法类代码场景（Codeforces），远远领先于市面上已有的全部非o1类模型，并在工程类代码场景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。

值得注意的是，V3在中文和数学相关基准测试中表现尤为突出。在中文能力上，V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近，但在事实知识 C-SimpleQA 上更为领先。而在美国数学竞赛（AIME 2024, MATH）和全国高中数学联赛（CNMO 2024）上，V3大幅超过了所有开源闭源模型。

Deepseek-V3与多个国内外大模型的测试数据对比。"Deepseek"公众号

公开资料显示，在DeepSeek背后是量化私募巨头幻方（High-Flyer Quant），也是大厂外唯一一家储备上万张英伟达 A100芯片的公司。幻方成立于2008年，总部位于中国杭州，专注于利用数学、统计学和计算机技术进行金融市场的量化分析和交易。2024年5月，DeepSeek-V2发布，幻方量化成功转型为人工智能先驱，其超低价格甚至引发了国内大模型的价格战，DeepSeek也被迅速冠以"AI界拼多多"之称。

本文系观察者网独家稿件，未经授权，不得转载。