大模型时代“得数据者得天下”，但数据侵权如何界定？

2023年以来，随着生成式AI的爆火，其不仅一定程度上给用户提供了便利，也在不断重塑互联网行业的竞争格局，中外诸多厂商均加入了大模型开发的战局，也间接引发了诸多的版权纠纷。

本周，纽约时报起诉OpenAI和微软违规收集其新闻进行训练一事（纽约时报起诉OpenAI和微软"不劳而获"，要求消灭），再次将大模型开发中涉嫌违规采集数据的问题暴露在公众视野之下。

据不完全统计，今年仅在美国加州，就已经有数十起针对大模型开发商违规使用数据的诉讼。

这些诉讼频发的背后是目前版权法案中，存在大模型对数据极度渴求和数据供应难以迅速增长的矛盾，"先授权后使用"的现有版权法律体系并无法匹配AI时代的数据使用方式，也引发了法律监管的新问题。

大模型训练阶段究竟涉及哪些版权利用行为，这一过程可能存在哪些侵权风险？而全球监管部门面对这个问题，也给出了各自的解答。

数据为王，版权诉讼战频发

在大模型爆炸性发展的2023年，纽约时报起诉OpenAI和微软只不过是贯彻全年版权诉讼大战的一个缩影。

今年1月，图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼，指其非法复制和处理版权图像作为模型训练数据。

4月，环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限，以阻止其版权歌曲被用于训练模型和生成音乐。

6月，国内的教培巨头学而思也被爆出，未经授权利用合作伙伴笔神作文数据进行大模型训练导致的纷争。

据不完全统计，自2022年11月至2023年10月，仅美国加州北区法院便已经受理了10起，版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发企业未经授权，利用版权作品进行模型训练的案件。

在被告名单上，可以看到各个互联网巨头均在其中，而侵权诉讼频发的背后则是大模型企业对于数据的极度渴求。

有业内人士对观察者网表示："目前的大模型竞争时代下，相比算法，得数据者得天下。"

一方面，训练数据是大模型训练的基石和燃料，如果没有数据，大模型的训练就无法开展和持续。另一方面，当前技术领域的研究显示，各家大模型在算法层区别并不大，并且具有同质化的趋势。在此背景下，训练数据就成了真正区分且影响大模型性能的重要因素之一。

以OpenAI的几代GPT模型为例，训练数据上，GPT-1预训练数据量仅有5GB；到了GPT-2，这个数据则增加至40GB；而在GPT3模型下，OpenAI用以训练模型的数据集数据量达到了惊人的45TB，而相比GPT3的1750亿参数规模，GPT4相传达到了100万亿规模的参数，对于数据的需求呈指数型飙升。

相比需求的爆炸性增长，对于各家大模型企业而言，自身数据和公开数据的供应显然难以满足这种指数型的需求，从互联网和其他友商那"搭便车"成了行业内公开的秘密，也成为了目前版权诉讼频发的根本原因。

为了应对"偷数据"频发的现象，除了通过诉讼手段外，不少互联网企业也利用了技术手段开启防御模式。

目前，有多家处在"数据提供端"的公司对数据抓取、开源等做出了反应。比如X（原名Twitter）限制了用户每天能查看的推文数量，几乎使数据提供服务无法使用。马斯克对此曾表示，这是对"数据抓取"和"系统操纵"的必要反应。

2023年4月，Reddit官方宣布将对调用其API的公司收费，原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。

此外，IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。

传统法律难解大模型纠纷

诸多诉讼的背后，除了大模型的迅速发展引发的数据饥荒外，还有一个重要的因素则是现有的传统版权制度并没有对大模型版权进行明确的规定，不仅存在巨大的法律盲区。现行的授权许可版权制度甚至反而可能成为大模型行业发展的桎梏。

在传统的授权许可制度下，基本都是本着先获取授权，后进行使用的原则，而对于大模型训练而言，其由于数据来源庞大，版权归属不同，如果采用预先获取授权规则，不仅需要准确的将数据中涉及版权保护的部分分离并识别权利人，还需要和每一部版权作品的权利人各自协商，支付价格不一的授权费用，考虑到大模型的数据量级，即便大模型开发商愿意去申请授权，这个工作过程会极为漫长，且花费将会是天文数字，很难有厂家能够落地操作。

不仅如此，对于授权本身，目前的版权规定在大模型领域也存在异议。

考虑到大模型训练行为类似于自然人阅读作品后吸收再创作的新闻，看书本身和对作品的模仿借鉴均不属于现有版权法规制的问题，如何定义侵权本身对于业界依然存在着不小的讨论空间。

从版权法角度看，"获取作品"或者说对于作品的接触类似线上浏览网页和线下阅读书籍，只接触不存在后续的传播利用大概率并不会触发版权侵权责任。这一阶段的核心版权问题主要涉及是否存在破坏作品"技术保护措施"的行为。

根据我国《著作权法》规定，违反保护作品技术措施的规定亦构成侵权。即使在满足"合理使用制度"的情况下使用作品，但需要规避技术措施才可以获得该作品，如果此种规避并不符合《著作权法》第50条关于避开技术措施的豁免规定，则可以在认定满足合理使用的基础上，同时认定构成违反技术措施而承担侵权责任。

我国《著作权法》曾规定5种豁免情形

除了从法律层面存在不确定的空间，在实操中，如何认定侵权也是一件极其复杂的工作。

对外经济贸易大学数字经济与法律创新研究中心执行主任张欣就曾表示："大模型监管的落地，还存在事后难追溯等问题，尤其在算法复杂度日益攀升、出现"算法黑箱"等情况下，如果从事后去还原和追溯数据集是否合规，十分依赖大模型开发商提供数据处理记录和日志，很难从外部进行确认。"

有行业人士认为，如果一味地求稳减少数据获取来源，那么最终训练的模型将由于规模不足和数据质量不高导致毫无竞争力。而假如想通过更大规模的数据去训练大模型，在现行法律法规下，无论是高昂的潜在授权成本，还是存在高度不确定性的侵权风险，对于大模型行业的发展都是不小的隐患。

责任豁免，各国都在怎么做？

实际上，面对这个行业发展带来的实操问题，目前全球各国均开始了探索和立法，其中美国、欧盟和日本均就AI大模型训练来源的版权问题给出了自己的解释和规定。

在美国版权法107条中，对专利的合理使用给出了4条考虑要素，分别是：（1）使用的目的与性质；（2）该版权作品的性质；（3）使用部分占被利用作品质与量的比例；（4）该使用对版权作品潜在市场或价值所产生的影响。这被称为合理使用认定"四要素标准"。

在这四要素中，美国法院最初认为第四要素即商业利益起主要作用，后来则强调第一要素即使用目的重要意义，并引申出了转换性使用（transformative use）这个实操中常见的名词。

正和第一要素"使用的意图和特征"相关，是法院在侵权案件中重点考察的内容。

转换性使用（transformative use）是指如下作品使用方式：使用人借用其他版权人作品，并在此作品基础上产生具有新信息、新美感、新洞察和新理解的新作品。

这个定义可能让人比较迷糊，这里举一个中国应用转换性判决的案例。

2014年，"葫芦娃"和"黑猫警长"作品的著作权人美影厂向法院提起诉讼，请求判令新影年代公司侵权，理由是新影年代公司制作的电影《80后的独立宣言》宣传海报上有包括"葫芦娃"和"黑猫警长"卡通形象在内的诸多美术形象。2015年，上海知识产权法院认为，电影海报引用"葫芦娃""黑猫警长"美术作品的目的，是为了反映儿童时代曾经经历此动画片盛播的影片主角拥有的代表性童年记忆，而不是单纯再现这二部美术作品的艺术美感。电影海报虽然引用原告美术作品，但这二部美术作品原有艺术价值功能发生转换，应当属于合理使用情形，不构成侵权。

电影《80后的独立宣言》海报出现了葫芦娃，黑猫警长等要素

不过值得注意的是，由于目前尚未有相关诉讼判决出台，美国司法界是否认可AI训练素材符合转换性使用尚且不能定论。

不过在2023年5月美国国会召开"交互中的人工智能与版权法"听证会，美国版权局前总法律顾问Sy Damle表示："任何强制模型对于训练内容付费许可的尝试，要么会使美国AI行业破产，消除我们在国际舞台上的竞争力；要么会驱使这些头部AI公司离开这个国家。"

可以看出美国对于大模型数据侵权这块态度较为开放。

2018年日本对《著作权法》进行了修改，在第30条第4款设置了新的合理使用条款--"不以欣赏作品原有价值为目的的利用"。根据日本文化厅的解读，此次修改整体上扩大了对于著作权的限制，其目的是鼓励创新，迎接以人工智能、物联网和大数据为代表的第四次产业革命。值得注意的是，新一轮的日本《著作权法》修正案已于2023年5月17日通过参议院表决，并未对第30条第4款进行修改。

在《著作权法》修改的同时，2023年5月，日本政府公开了自身对于版权法领域模型训练行为的态度--不会对AIGC模型训练中使用的内容加以版权保护。

日本文部科学大臣长冈惠子(Keiko Nagaoka)表示，日本法律不会保护AIGC模型训练集中使用的版权材料，也即允许AIGC模型训练对于版权人作品的利用，无论是出于非营利或商业目的，无论是复制还是复制以外的行为。这在一定程度验证了，日本《著作权法》第30条第4款"不以欣赏作品原有价值为目的利用"的责任豁免，能够适用于当下的AIGC模型训练行为。

相比美日，欧盟最新的法案则对AI大模型数据来源的要求做了更加明确的规定，并制定了侵权的罚款标准。

2023年的6月14日，欧洲议会投票通过了《人工智能法案》，这也是全世界第一部通过议会程序、专门针对人工智能（特别是AIGC）的综合性立法。

在该法案中，就明确规定了ChatGPT这样的生成式AI系统，将需要遵守透明度要求，包括披露内容是由AI生成的、帮助区分所谓的深度伪造图像和真实图像等。同时这些工具需要具备防止生成非法内容的保障措施。更重要的是，OpenAI等厂商需要公开，他们在训练模型过程中，用了哪些受版权保护的数据。

若违反AI法案，公司将面对最高年营收7%或3000万欧元的罚金，以哪个数字更高为准。

我国数据问题如何解决？

值得注意的是，相比其他国家对于版权使用的定义，我国目前的著作权法无法直接契合AI大模型训练，存在一定的法律缺位。

《著作权法》第二十四条规定了"合理使用"（对于作品的利用，可以不经版权人许可，不向其支付报酬）的具体情形，涉及AIGC模型训练的具体规则大致包括"个人使用""适当引用""学习研究使用"等。

"个人使用"适用目的存在严格限制，而目前AIGC模型最终落脚于对不特定主体的商业性服务，难以与之契合；

"适当引用"适用前提是"为介绍、评论说明某一作品"或"说明某一问题"，AIGC模型商业化应用显然难以归于此类；

"科学研究"对作品的利用限定在"学校课堂教学或者科学研究"，同时还强调仅能"少量复制"，AIGC模型大量复制与利用作品的现状无法符合该项要求。

虽然2021年修订后的《著作权法》对于"合理使用"规定，增加了"一般要件"和"兜底条款"。但"兜底条款"是一个半开放的内容规定--"法律、行政法规规定的其他情形"，无法在司法实践中由法院结合"一般要件"，根据具体案情直接适用。因此，AIGC模型训练能否适用"合理使用"的豁免，仍有待后续《著作权法》《著作权实施条例》等相关立法的修订加以明确。

此外，我国《著作权法》对于"法定许可"的规定较为分散，总结起来主要包括"期刊转载""文艺团体表演""录音唱片制作录音制品""广播电台和电视台使用他人已发表的作品制作广播和电视节目"四大类，和模型训练行为差异甚大，难以匹配适用。

不过值得注意的是，大模型抓取外部数据虽然较难认定违反我国《著作权法》，但是有律师认为其可能涉及违反《著作安全法》。

陕西华格律师事务所律师葛伟超表示："利用抓取技术破坏他人市场竞争优势，具有并存在为自己谋取竞争优势的主观故意，违反诚实信用原则，扰乱竞争秩序的数据抓取行为，可能构成不正当竞争行为。同时也直接违反了《数据安全法》相关规定。"

今年六月，中文在线、同方知网、中国工人出版社等26家单位共同发布了国内首份有关AIGC训练数据版权的倡议书。作为业内首份AIGC数据版权倡议书，业内认为其最大的价值在于两点：一是唤醒了国内AI企业关于大模型训练数据的版权意识；二是为AIGC研发者规避版权争议提供了方向性指引。

从内容上看，虽然这份倡议书不具备事实上的法律效应，但它更多是前期唤醒公众、学者及相关部委重视AI版权现状的问题。面向AIGC领域专家、学者及AIGC从业机构，分别从深化版权问题研究、版权赋能产业发展、避免侵权、引导AI生成内容的合理使用、提升版权保护意识、优化内容授权渠道这六个方面提出了倡议。覆盖了从AIGC模型研发到产品使用，从版权问题理论研究到数据流通实践的各个环节。

大模型的开发离不开海量数据助力。当前，数据来源的知识产权已经成为大模型发展的阿喀琉斯之踵。AI模型开发主体以何种方式、需要承担何种程度的法律义务以获取训练数据，是当前产业需要解决的核心问题。