ChatGPT盗用《权力的游戏》做训练素材，原作者是怎么证明的？-虎嗅网

据媒体报道^[1]，近日美国作家协会携包括《冰与火之歌：权力的游戏》的作者乔治·马丁在内的17名作家在美国纽约南区法院对人工智能公司OpenAI发起集体诉讼，指控后者未经许可使用了受版权保护的作品训练人工智能模型。

作为律师，笔者对原告如何证明OpenAI用《冰与火之歌：权力的游戏》训练ChatGPT很感兴趣，就查阅了美国作家协会网站上的起诉状，本文会结合著作权法律跟大家聊聊这个事情。

众所周知，人工智能服务的解答能力要强，高质量的训练数据必不可少，但世界上多数国家的著作权法都要求人工智能开发者使用他人享有著作权的内容进行训练前，应当取得著作权人的许可。而人工智能开发者出于种种考虑（比如避免繁琐冗长的授权商务谈判、开发时限要求他们只争朝夕、减少版权成本等种种考虑、部分著作权人授权拿不到哪怕给钱也不愿意给他们授权），直接在人工智能开发时使用了盗版内容作为训练数据。

但对于这种做法，因为大模型的训练数据是不公开的，训练过程也是黑箱操作，著作权人即使知道存在侵权也很难举证，美国现在既然有诉讼，下面我们就看看美国律师是怎么证明的。

一、被告自认（其实是ChatGPT自认）

诉状称，OpenAI为了训练其大型语言模型，在未征得作者同意的情况下复制了由原告撰写的受版权保护的书籍，并且OpenAI已公开承认了。因为原告的律师向ChatGPT提问，然后聊天机器人回应称：

用于训练我的一些书籍可能是受版权保护的。不过，我的训练数据来自互联网上的各种公开来源，我的训练数据集中包含的一些书籍很可能没有被授权使用……如果我的训练数据中包含了任何受版权保护的资料，那么这些资料的使用是在版权持有者不知情或未征得版权持有者同意的情况下进行的。

同时，原告律师发现，直到最近，ChatGPT还能准确无误地返回受版权保护的书籍中的文字原文，这表明底层大型语言模型在训练过程中一定完整地录入了这些书籍。虽然最近ChatGPT对此进行了修改，会以“我无法提供版权文本的逐字摘录”来回应此类提示。从时间上看，ChatGP对输出规则的这一明显修改很可能是因为原告作家协会给OpenAI和其他公司发了公开信。

笔者认为，虽然ChatGPT自认其训练素材可能没有授权，但鉴于人工智能经常在回复里没有依据地胡说八道（ChatGPT曾说笔者这个知识产权律师是刑事律师，最近处理过一起很有名的强奸案，明显在胡编，没有任何依据），这段回复要有其他证据佐证才能被法院认定为案件的事实。

二、训练素材包来自知名盗版网站

诉状称：ChatGPT现在提供的不是逐字摘录，而是受版权保护的书籍的摘要，其中通常包含评论和其他公开资料中没有的细节——这再次表明，基础大型语言模型在训练期间必须录入整本书。但OpenAI对于从何处以及如何获得原告受版权保护的作品，始终语焉不详。OpenAI承认，它用来训练模型的训练数据集包括“Common Crawl”和两个高质量的基于互联网的书籍语料库，它称之为“Booksl”和“Books2.T2”。

Common Crawl是一个庞大且不断增长的语料库，包含从数十亿网页中抓取的“原始网页数据、元数据提取和文本提取”。它被广泛用于训练大型语言模型，除OpenAI的GPT外，还被用于训练脸书和谷歌的人工智能引擎。众所周知，它包含从盗版网站复制的书籍文本（链接到 Z-Library，另一个拥有 1100多万册图书的大型盗版图书库出现在Common Crawl语料库中，并被纳入其他大型语言模型的训练数据集）。

OpenAI拒绝讨论Books2数据集的来源。但一些独立的Al研究人员怀疑 Books2 包含或由从大型盗版图书库下载的电子书文件组成，如Library Genesis或LibGen，“它提供了一个庞大的盗版文本库：LibGen 作为一个臭名昭著的版权侵权者已为法院所熟知。而Books2 的其他可能来源包括 Z-Library和 Bibliotik 等盗版种子跟踪器，这些跟踪器允许用户批量下载电子书。”

原告律师无法证明Books2的数据来源，所以举了著名包含大量盗版内容的训练素材库“Books3”作为类比证据（《连线》杂志报道过，脸书和彭博社的大型语言模型使用了“Books3”的素材库）^[2]：已披露的 Books2 数据集的规模表明，该数据集包含10万多本书。Books2和Books3的大小相似，而且互联网上允许批量下载电子书的盗版存储库寥寥无几，这有力地表明Books2中的书籍也是从上文讨论过的臭名昭著的存储库中获取的。

如果这个诉讼是在中国进行的，如果原告初步证明了被告的训练素材存在盗版，此时，举证责任就在被告，被告要证明其训练素材不存在盗版，否则法院就会支持原告的证明内容。

三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT？

诉状称，乔治·马丁是包括《权力的游戏》在内的十五部小说作品的著作权人，OpenAI在未经许可的情况下录入并复制了乔治·马丁的全部或多部作品，并将其用于训练OpenAI 的大型语言模型。诉状中举了两个第三方新闻的例子：

1. 2023 年 7 月，一个叫Liam Swayne的程序员^[3]使用 ChatGPT 生成了《凛冬的寒风》《春晓的梦想》的版本，这两本书是马丁正在创作的《冰与火之歌》系列的最后两部作品。

2. 美国加州大学伯克利分校的研究人员对ChatGPT对作品的“记忆”程度进行了一项实验^[4]，发现马丁的小说《权力的游戏》在“记忆”程度方面排名第12位。

然后，原告律师使用ChatGPT进行测试，输入提示后，ChatGPT 准确生成了几部马丁作品的摘要，包括冰与火之歌》系列的前三部《权力的游戏》《列王的纷争》《冰雨的风暴》以及《末日审判布条》最后一章的准确摘要。

原告律师输入提示后，ChatGPT还为马丁作品《列王的纷争》的另一部续集生成了一份详细大纲，并将该衍生作品命名为“A Dance With Shadows”，其中使用了马丁《冰与火之歌》系列现有书籍中的相同角色。ChatGPT还生成了一份《权力的游戏前传》的详细大纲，并将该衍生作品命名为“A Dawn of Direwolves”，其中使用了与《冰与火之歌》系列丛书中相同的人物。

诉状总结：如果OpenAI大型语言模型没有摄取马丁侵权作品并对其进行训练，ChatGPT 就不可能产生上述结果。笔者认为，如果诉讼在中国法院进行，马丁的律师已经证明了ChatGPT使用了马丁的作品进行训练，并且其服务器目前仍然留存着马丁作品的复制件。

四、人工智能训练可以不用获得著作权人的授权吗？

法律原理上，让人工智能学习网上内容的过程是一个复制行为或者临时复制行为，人工智能公司要先将网上的或者线下获得的内容爬取，然后输入到人工智能程序中，无论这个内容是文字、图片、音频、视频还是程序，复制行为都应当获得相应权利人许可，否则就涉嫌侵权。

实际上我国法律法规也是这么规定的，根据我国《著作权法》和七部门联合发布的《生成式人工智能服务管理暂行办法》，我国的生成式人工智能服务提供者（以下称提供者）开展预训练、优化训练等训练数据处理活动时，不得侵害他人依法享有的知识产权，也就是说，训练素材需要取得著作权人的许可。在美国，如前文所述，训练人工智能的版权素材需要著作权人授权。

但对这个问题，也有国家的规定不太一样，比如根据日本著作权法第30条第4款，用版权内容训练人工智能属于合理使用：如果不以欣赏作品中表达的思想或情感为目的，且没有不合理地损害著作人权益的，可以合理使用他人享有著作权的作品。

笔者觉得，虽然日本的规定立法目的可能是为了振兴该国的人工智能产业，但其实也是一个思路，因为人工智能生成的内容不受著作权法保护，那其创造的内容就是全民共有的，那把所有的版权作品都让其学习一下，成果出来了大家都不需要授权就可以用，这个说不定也挺好。

参考资料：

1. https://finance.eastmoney.com/a/202309212853452095.html

2. https://www.wired.com/story/battle-over-books3/

3. https://game.sohu.com/a/704547146_114760

4. https://hub.baai.ac.cn/view/26572

本文作者：游云庭，上海大邦律师事务所高级合伙人，知识产权律师。电话：8621-52134900，Email: yytbest@gmail.com，本文仅代表作者观点。