在过去两年中,版权所有者对人工智能公司提起了数十起诉讼,声称他们的作品在未经许可的情况下被抓取并输入到模型中。截至2025年末,仅在美国就有至少63起针对人工智能开发商的版权案件,国外还有更多。
这些诉讼中有些围绕文本展开。但越来越多的诉讼涉及图像和视频。对公司的重要启示是:抓取的视觉数据不再是商业产品的安全基础。
许可视觉数据的瓶颈
先进的视觉模型同时需要三样东西:特定内容、多样性和法律明确性。如今,大多数数据集至少缺少其中一项。
抓取的网络图像范围广泛但混乱且有风险。传统的库存档案干净但往往偏向西方、商业和工作室环境。定制拍摄准确但速度慢且昂贵。
许可协议现在是许多高调合作伙伴关系的核心。例如,Getty Images与Perplexity的多年协议让这家初创公司可以访问Getty的创意和编辑视觉内容用于人工智能搜索,并提供归属和补偿。
特定内容的稀缺性
开发人员可以找到大量通用生活方式图像。但当他们需要小众或罕见场景时,麻烦就开始了。
想想:
- 特定机器上的工业故障
- 特定地区的基础设施和公共服务
- 在西方库存档案中很少出现的文化和宗教场景
- 安全、无障碍或残疾情境中的边缘案例
当这些场景在规模上不存在时,模型会产生幻觉或失败。基于此训练的模型会对真相产生偏见。当涉及到在数据中几乎不存在的人和地方时,它们表现不佳,并且会生成对主流框架之外的任何人来说感觉不对或完全冒犯的视觉效果。
数据质量和缺失的元数据
即使团队拥有权利,文件本身往往也没有准备好用于训练。图像带有不完整的标签、不一致的类别或根本没有标签。关键上下文缺失,这使工程师不得不猜测或手动重新标记。
行业如何应对
在性能和监管的双重压力下,该行业正在汇聚三种主要应对方式。
- 作为数据基础设施的许可平台
为了替代抓取的网络图像,人工智能团队越来越多地购买对许可档案的访问权。大型内容公司现在销售具有明确权利和元数据的训练就绪图像和视频包,而不是让客户在事后逆向工程同意。
除了这些现有企业外,更新的平台直接围绕人工智能训练用例构建。Wirestock聚合创作者内容,处理许可,并根据明确的人工智能训练条款提供视觉数据集(在此了解更多关于wirestock的信息)。
对于创作者来说,这项工作不再是"上传并希望"的库存,而是更像定义明确的项目。通过人工智能 自由摄影工作,创作者收到简报并为被接受用于训练的作品集获得报酬。
用合成数据填补空白
在难以收集真实世界图像的地方,团队正转向合成数据。他们使用模拟工具、3D管道或生成模型来制作特定任务的视觉效果,然后将这些与真实的、许可的内容混合。
合成数据集可以覆盖边缘案例并平衡分布,但它们仍然依赖真实图像作为参考点。没有这个锚点,模型可能会从自己输出的闭环中学习。
要求透明度的监管
立法者开始要求对训练来源进行可见性。例如,加利福尼亚的AB-2013法案将要求许多为该州服务的生成式人工智能开发商披露他们使用了什么类型的数据以及这些数据来自哪里。
训练数据不能再放在未命名的桶中;它必须有足够详细的文档,以便监管机构、客户和创作者可以看到它是如何组装的。
这对人工智能构建者意味着什么
抓取的、匿名的图像文件夹现在是一种负担。它们会减慢团队速度,招致法律审查,并使每次新产品对话变得比必要的更加困难。
更安全的模式是在你能解释的视觉数据上进行训练。你团队中的某人应该能够用一句话说明数据集包含什么,它来自哪里,以及许可允许什么。如果这是不可能的,那么模型就是在借来的时间上运行。
列出对收入或声誉重要的模型的简短清单,并记录它们的主要训练来源。将任何抓取或未记录的内容视为"审查中",然后开始用许可或委托的数据替换这些集合。
常见问题
我们不是大型人工智能实验室。我们现在真的需要担心这个吗?
如果你向客户提供人工智能功能,是的。企业买家、监管机构和合作伙伴开始询问训练数据的来源,无论公司规模大小。
降低我们视觉数据风险的现实第一步是什么?
从电子表格开始。列出你的关键模型、你使用的数据集以及这些数据集是如何获取的:许可档案、内部内容、公共抓取或"不确定"。从那里,选择一两个高影响力的模型,开始寻找许可数据集进行替换。
合成数据能自己解决这个问题吗?
不能。合成图像有助于覆盖和罕见场景,但它们仍然需要真实的、许可的图像作为参考。没有这个锚点,模型可能会漂移到自己输出的闭环中,并在真实场景中失败。
阅读更多来自Techbullion的内容


