在一批大型出版商提起大规模诉讼、指控 Meta 未经许可使用受版权保护的书籍及学术材料来训练其 Llama AI 模型后,Meta Platforms(META)股价在早盘交易中略微下跌。
这起于5月5日在曼哈顿联邦法院提起的法律行动,进一步加剧了外界对领先科技企业如何为生成式人工智能系统获取训练数据的担忧。
原告包括爱思唯尔(Elsevier)、圣智(Cengage)、阿歇特(Hachette)、麦克米伦(Macmillan)和麦格劳-希尔(McGraw Hill)等主要学术及出版机构,以及作家斯科特·图罗(Scott Turow)。案件指控 Meta 在未签订适当许可协议的情况下,使用数百万部受保护作品(包括教科书、科学研究论文及知名小说)来开发其 AI 系统。
根据投诉内容,训练数据集据称涵盖范围广泛的受版权保护材料,包括教育类教科书、科学文献及小说作品。被引用的作品包括 N.K. 杰米辛(N.K. Jemisin)的《第五季》(The Fifth Season)以及彼得·布朗(Peter Brown)的《野生机器人》(The Wild Robot),由此可见据称被纳入 Meta AI 训练流程的内容范围之广。
Meta Platforms, Inc., META
出版商认为,未经授权使用这些作品侵犯了知识产权,并要求赔偿损失,同时寻求为那些材料可能在未获同意的情况下被用于 AI 开发的内容所有者提供更广泛的法律保障。
此次诉讼为全球日益激烈的争论再添压力——争论的核心在于,将受版权保护的材料用于 AI 训练是否构成"合理使用"。包括 Meta 在内的科技公司多次主张,在大规模数据集上训练 AI 模型具有转化性质,属于合理使用保护范畴。
然而,创作者和出版商对此强烈反对,认为此类做法实质上是在未给予任何补偿的情况下复制受保护内容。此案与针对 OpenAI 和 Anthropic 的类似诉讼相呼应,显示出 AI 行业正面临日益扩大的法律战线。涉及 Anthropic 的一项近期和解案价值约15亿美元,已表明法院在未来裁决中可能会区分合法来源数据与盗版材料。
除法庭指控外,早前的报道也揭示了外界对 Meta 数据获取做法的更多担忧。相关案件的法庭文件显示,该公司可能曾访问 LibGen 和 Anna's Archive 等影子图书馆的数据集,并有指控称数十 TB 的数据系通过种子下载渠道获取。
据报道,内部讨论中研究人员和工程师对使用此类数据集的道德影响表示忧虑。据称部分员工对使用盗版材料提出异议,而另一些人则讨论,为单个作品申请授权是否会损害 Meta 更宏观的合理使用辩护策略。
The post Meta (META) Stock; Edges Lower as Publishers Sue Over Llama AI Training Data Claims appeared first on CoinCentral.


