纽约时报起诉OpenAI和微软：对新闻行业搭便车

【文/观察者网李泽西】

当地时间27日，美国《纽约时报》在纽约南区联邦地区法院正式起诉OpenAI及其母公司微软，指控他们的人工智能和大型语言模型侵犯了《纽约时报》对文章的版权，要求其补偿高达数十亿美元的潜在经济损失，并消灭相关程序。

自OpenAI于2022年底推出ChatGPT，这一程序现已吸引力1.8亿用户，被用于编程、写作业、综述新闻等用途，被誉为新科技革命的"排头兵"。而必应搜索引擎因包含了新的人工智能程序"必应聊天"，也使搜索引擎的传统巨头谷歌感到了深深的危机感，促发了全球性的一波"AI热"。

《纽约时报》指控微软的"必应聊天"和OpenAI的ChatGPT"未付费或者获取许可"，就企图"利用《纽约时报》在报道中的巨大投入，在搭新闻行业的便车"。

《纽约时报》称，尽管OpenAI和微软也大规模抄袭其他媒体的内容，但是两者训练大型语言模型过程中"特别注重使用《纽约时报》的内容"。据开源数据，ChatGPT使用的训练数据库中，《纽约时报》网站是最频繁出现的媒体域名，在所有域名中仅次于谷歌和维基百科。《纽约时报》在诉状中多次强调其文章内容"质量极高"且"无可替代"，包括六页吹嘘自己"高价产出开创性的深度报道和突发新闻"。

《纽约时报》称OpenAI和微软的人工智能程序可逐字逐句抄袭其文章内容，或对其进行精炼概括，或模仿其表达风格，并列举多个具体例子。OpenAI和微软认为，这些模型可以"合理使用"受版权保护的内容，因为他们对原文进行了改编，因此是美国版权法律所允许的，但是《纽约时报》表示不认同这一说法。

《纽约时报》认为，这导致许多潜在读者看完了相关程序输出的新闻内容后，选择不前往自己的网站上查阅原文，导致自己损失了订阅、授权、广告和加盟收入，要求其为"数十亿美元的损失"负责，并称这同时造就了OpenAI和微软突飞猛涨的市值。

截至北京时间28日上午，微软的市值达到了2.78万亿美元，在美国时间27日的交易中略微下滑了0.16%。《纽约时报》指出，微软推出"利用《纽约时报》文章训练出的大型语言模型"后，其市值上涨了大约1万亿美元，同时抨击OpenAI"没有践行利他主义的初心"，指控其每月近一亿美元的收入"很大程度上建立在盗用版权的行径上"。

观察者网记者28日尝试复制《纽约时报》提出的一些证据。ChatGPT部分时候表示无法抄袭受版权保护的内容，但部分时候反应如《纽约时报》诉状所列举的一致。

ChatGPT先拒绝抄袭版权内容，后抄袭其他《纽约时报》文章

而当必应聊天被要求抄袭《纽约时报》文章时，必应聊天大部分抄袭了第三方网站转载的《纽约时报》原文节选，小部分综合了其他相关新闻报道。

《纽约时报》称，自己在2023年4月曾与OpenAI和微软接触，商谈授权后者的模型合理使用版权文章内容事宜，以及相关的潜在资金交易，但是各方未能达成一致。据诉状，《纽约时报》认为OpenAI和微软在此前训练模型的过程中，就已经侵犯了其文章版权。

今年，OpenAI和微软已与美联社和"Politico"杂志等媒体达成了合作协议，后者授权文章用于训练人工智能和大型语言模型。美联社当时分析称，OpenAI和微软此举是为了规避将来或被限制使用其他新闻信源的风险。美联社和"Politico"称达成协议是为了助推自己开拓人工智能技术的机遇，并表示协议包含未公开数额的资金交易。

美联社援引行业专家称，是美联社在1990年代开创了媒体在互联网上呈现免费文章的先河，但"这一结果对于新闻行业是灾难性的"。许多国家的读者纷纷转向社交媒体等平台，使多家传统媒体的财政状况岌岌可危。这也已经迫使了一些政府采取应对措施。澳大利亚2021年通过了一则法律，强迫谷歌和Meta（前为脸书）与当地媒体达成新闻内容转载授权协议，要求两大平台支付部分通过广告等方式获取的收入，否则接受政府任命的裁决官裁定公允费用价格。

《纽约时报》聘请律师事务所Susman Godfrey作为其在这场诉讼中的首席外部法律顾问。该律所已于11月代表多名非虚构类书籍作者起诉了OpenAI和微软侵犯版权，"甚至没有购买哪怕一本原书"，诉状相当篇幅与其代表《纽约时报》起草的诉状一致；其他作者、编剧、戏剧演员等人在过去一年间也分别起诉OpenAI等侵犯其版权。该律所因4月迫使福克斯新闻就其"2020年选举舞弊"报道达成创纪录的7.87亿美元和解而名扬美国。

OpenAI在12月早些时候曾表示"尊重内容创作者的权益，认为他们应受益于人工智能科技"。针对《纽约时报》的起诉，OpenAI和微软均尚未置评。

尽管诉状表示OpenAI和微软"应为数十亿美元的损失负责"，不过《纽约时报》并没有直接提出任何具体的赔偿金额要求，而是要求法院做出相关赔偿裁决，并要求OpenAI和微软销毁所有使用《纽约时报》版权内容的数据库以及人工智能和大型语言模型。

《纽约时报》在诉讼中写道，如果自己和其他新闻机构"无法制作和保护独立的新闻报道，将会造成一个计算机和AI无法填补的真空。这将会减少新闻报道的产出，让社会付出巨大的代价。"

一些AI专家认为，大型语言模型并不能替代新闻行业，一方面因为他们无法自行进行"原创报道"，另一方面是，当前的大型语言模型存在捏造内容和事实的现象，导致读者在不参考其他信源的情况下难以辨别真假。《纽约时报》列举的"ChatGPT抄袭"证据中，也难免体现了这一特质：在被要求原文呈现一则《纽约时报》文章时，ChatGPT虽然正确地抄袭了前两段内容，但是"忘记了"第三段，并在第四和第五段中捏造了许多原文中不存在的内容。

《纽约时报》在诉状中也提出，这一现象可能会使不明真相的读者误以为原文既是如此，从而损害《纽约时报》的媒体形象。

被问及《纽约时报》针对OpenAI和微软的起诉时，ChatGPT表示不了解2022年1月后的新闻，而必应聊天称无此事。

必应聊天回应"《纽约时报》起诉OpenAI和微软"