无需原作者同意,AI 可以用已出版书籍作训练数据了。
就在最新判决的诉讼中,美国法院裁决:允许 Claude 背后公司 Anthropic 在未经作者许可的情况下,使用合法购买的已出版书籍训练 AI。
法院参考了美国版权法中的"合理使用"(Fair Use)原则,认为 AI 训练属于"转化性使用"(Transformative Use),即对原作品的新用途未取代原作市场,且有利于技术创新和公共利益。
这是美国法院首次认可 AI 公司对书籍的使用权,保护人工智能公司在使用受版权保护的文本训练 LLMs 时不受限制:
大大降低了 AI 训练数据的版权风险。
对此,不少网友的看法是这样的:既然人类读书并加以理解是毫无争议的,那 AI 读书并理解也应该合理。
怎么一回事?
对 Anthropic 的指控,由三位作家在 2024 年 8 月发起。
值得关注的是,Anthropic 的案件不仅针对使用已出版书籍训练 AI,还涉及到书籍的来源问题:
尽管 Anthropic 在那时已意识到盗版法律风险(" not so gung ho about pirated books for legal reasons "),但仍保留所有盗版副本。
2023 年 3 月,Anthropic 从数字化图书馆选择书籍子集训练 Claude 模型,Claude 首版发布。
2024 年 2 月,Anthropic 雇佣前 Google 图书扫描项目负责人 Turvey,转向合法采购并扫描书籍,购买数百万本纸质书。
Turvey 发送了"一两封邮件"(" an email or two ")给出版商,但未持续跟进(" let those conversations wither ")。
根据美国法院对 Anthropic 的裁决文书,可以关注到以下几点:
1、这次事件的争议主要在 Anthropic未经过创作者允许,使用已购买的正版书籍或盗版书籍对 Claude 进行训练。
2、原告对于 Anthropic 的指控是:非法复制作品(包括盗版和扫描版)用于训练 AI,侵犯版权。
3、法院裁定 Anthropic 可以使用合法采购书籍的扫描副本用于训练 AI 的数据处理,认为 AI 训练具有"高度转化性",未直接替代原作市场,且输出未侵犯原告作品。
4、法院同时裁定盗版书籍的使用不构成合理使用,盗版行为本身涉及侵权。盗版相关责任及赔偿问题需进入审判阶段。
有网友简单总结为:关键在于训练使用书籍的来源是不是盗版。
也就是说,AI 公司可未经原作者许可使用合法购买的书籍训练 AI。
有网友表示:这是一个正确的决定,就像人类可以去图书馆或者读自己买的书一样自然。
同样的,这个裁决结果也面临着一些争议:AI 可以和人类一概而论吗?创作者又该如何保护他们的知识?
类似案例
类似案例曾出现在其他 AI 公司的诉讼中。
2015 年 Goggle Books:美国最高法院认定属于"合理使用"
2004 年,Google 开始了" Google ’ s Library Project ",这个计划与各大图书馆合作,打算将超过两千万册图书扫描并数字化,供 Google 使用者直接搜索。被扫描的图书包括超过著作权保护期限的公有作品和那些尚处在著作权保护期内的书籍。
全文数字化复制侵犯作者复制权;
片段浏览功能可能替代原作市场;
有商业动机(搜索业务衍生收益);
数字副本存储存在黑客泄露风险;
向合作图书馆分发副本可能损害版权人利益。
2013 年,美国联邦法院作出了第一判决,驳回原告诉求,认定 Google 的搜索和片段浏览功能只"转化"了原作用途(从阅读到信息检索,未提供实质替代内容,可促进学术研究和图书发现,构成合理使用的条件。
2015 年,二审维持原判。
2022 年 GitHub Copilot:促使 AI 公司推出"代码来源标注"功能
GitHub Copilot 是微软旗下 GitHub 开发的 AI 编程助手,基于 OpenAI 的 Codex 模型,通过分析公开代码库(如 GitHub 上的开源项目)生成代码建议。
2022 年,多名开源开发者及组织指控 GitHub Copilot:
许可证违规:Copilot 训练时使用了 GPL 等"传染性"开源许可证代码,但生成代码未遵循原许可证要求(如保留版权声明)。
版权侵权:生成的代码与开源代码高度相似,涉嫌直接复制。
商业滥用:微软将免费开源代码转化为付费工具(Copilot 企业版),违背开源精神。
根据公开报道和诉讼进展,关键结论如下:
法院认定 AI 训练使用开源代码属于"转化性使用",不构成直接侵权(参考 Google Books 案逻辑);
原告未能证明 Copilot 系统性输出侵权代码,偶发相似片段不构成大规模违规;
法院要求 GitHub 加强过滤机制,避免输出受 GPL 等强许可证约束的代码,或明确标注来源及许可证要求,并提供工具供用户检查代码与开源库的相似性。
2023 年 2 月,GitHub 正式发布"代码来源检测"功能(Code Referencing),作为默认服务集成到 Copilot 中,帮助用户识别生成代码与开源项目的关联性。
2023 年 Open AI&Meta:仍在受理
2023 年,多名作家、演员以及全球出版商联盟指控 Open AI 和 Meta 使用盗版数据训练 AI,数据包含来自"影子图书馆"(如 Bibliotik、LibGen、Z-Library)的书籍,这些网站提供未经授权的版权内容。
ChatGPT 能准确总结原告的书籍,证明模型"记忆"了受保护文本;Meta CEO 扎克伯格及 AI 团队明知 LibGen 为盗版,仍决定使用其数据训练 Llama 3,以加速超越 OpenAI。
关于 Open AI 和 Meta 的案件仍在受理中,尚未明确裁决。
本次 Anthropic 案的胜诉并非孤例,而是美国司法系统在"技术创新 vs. 版权保护"的拉锯中倾向前者的体现,也是美国首次有法院支持合理使用原则,保护人工智能公司在使用受版权保护的文本训练 LLMs 时不受限制。
意味着此后AI 可以研究其购买而非从盗版网站获取的内容。
有网友认为,本次裁决结果可能影响美国法院对 Open AI 和 Meta 案件的审理。
参考链接:
[ 1 ] https://x.com/rohanpaul_ai/status/1937598431947808893
[ 2 ] https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.231.0_2.pdf
[ 3 ] https://githubcopilotlitigation.com/
[ 4 ] https://x.com/CeciliaZin/status/1740109462319644905
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。
� � 也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~
一键关注 � � 点亮星标
科技前沿进展每日见
散户如何给股票加杠杆,配资排排网,配资平台哪家正规提示:文章来自网络,不代表本站观点。