DeepSeek-V3自称ChatGPT 刷屏的DeepSeek-V3能力到底如何？

DeepSeek-V3自称是ChatGPT，AI正在"污染"互联网？

在DeepSeek-V3刷屏之际，有一个bug也引发热议。

在试用DeepSeek-V3过程中，《每日经济新闻》记者在对话框中询问"你是什么模型"时，它给出了一个令人诧异的回答："我是一个名为ChatGPT的AI语言模型，由OpenAl开发。"此外，它还补充说明，该模型是"基于GPT-4架构"。

图片来源：每经记者试用DeepSeek-V3截图

国内外很多用户也都反映了这一现象。而且，12月27日，Sam Altman发了一个帖文，外媒指出，Altman这篇推文意在暗讽其竞争对手对OpenAI数据的挖掘。

图片来源：Sam Altman X账号推文

于是，有人就开始质疑：DeepSeek-V3是否是在ChatGPT的输出基础上训练的？为此，《每日经济新闻》向深度求索发出采访请求。截至发稿，尚未收到回复。

针对这种情况产生的原因，每经记者采访了机器学习奠基人之一、美国人工智能促进会前主席Thomas G. Dietterich，他表示，他对全新的DeepSeek模型的细节还了解不够，无法给出确切的答案。"但从普遍情况来说，几乎所有的大模型都主要基于公开数据进行训练，因此没有特别需要合成的数据。这些模型都是通过仔细选择和清理训练数据（例如，专注于高质量来源的数据）来取得了改进。"

TechCrunch则猜测称，深度求索可能用了包含GPT-4通过ChatGPT生成的文本的公共数据集。"如果DeepSeek-V3是用这些数据进行训练的，那么该模型可能已经记住了GPT-4的一些输出，现在正在逐字反刍它们。"

"显然，该模型（DeepSeek-V3）可能在某些时候看到了ChatGPT的原始反应，但目前尚不清楚从哪里看到的，"伦敦国王学院专门研究人工智能的研究员Mike Cook也指出，"这也可能是个'意外'。"他进一步解释称，根据竞争对手AI系统输出训练模型的做法可能对模型质量产生"非常糟糕"的影响，因为它可能导致幻觉和误导性答案。

不过，DeepSeek-V3也并非是第一个错误识别自己的模型，谷歌的Gemini等有时也会声称是竞争模型。例如，Gemini在普通话提示下称自己是百度的文心一言聊天机器人。

造成这种情况的原因可能在于，AI公司在互联网上获取大量训练数据，但是，现如今的互联网本就充斥着各种各样用AI生产出来的数据。据外媒估计，到2026年，90%的互联网数据将由AI生成。这种 "污染" 使得从训练数据集中彻底过滤AI输出变得相当困难。

"互联网数据现在充斥着AI输出，"非营利组织AI Now Institute的首席AI科学家Khlaaf表示，基于此，如果DeepSeek部分使用了OpenAI模型进行提炼数据，也不足为奇。

DeepSeek-V3自称ChatGPT 刷屏的DeepSeek-V3能力到底如何？(4)