全球串流服务 Netflix 推出了 VOID,这是一个开源框架,旨在从视频中移除对象的同时保留它们所产生的物理互动,解决了传统修补和对象擦除工具中存在的局限性。
从历史上看,从场景中移除对象一直很简单,但确保环境在之后表现得真实却带来了重大挑战。例如,删除一个拿着吉他的人会让乐器不自然地悬浮着,而从泳池中移除潜水员可能会让水面保持不动。视觉特效团队传统上都是手动纠正这些问题,这是一个耗时的过程,单个场景可能需要数天到数周的时间。
VOID 是 Video Object and Interaction Deletion(视频对象和互动删除)的缩写,旨在解决这些复杂问题。与仅仅填充缺失像素的传统方法不同,该系统预测对象被移除后场景的物理一致性结果。
它利用多种技术组合来实现这一目标。Google 的 Gemini 分析场景以识别将受删除影响的区域,而 Meta 的 SAM2 则分割要移除的对象。这些输出被编码成一个四值掩码(quadmask),这是一个四值映射,指示哪些区域要擦除、哪些重叠、哪些受到物理影响以及哪些保持不变。然后,基于阿里巴巴 CogVideoX 构建的视频扩散模型以物理上合理的方式重建场景。可选的第二次处理应用光流来纠正初始重建中的任何失真。
VOID 的演示显示了令人信服的结果:当持有者被移除时气球自然上升,当不相关的积木被删除时积木保持稳定,当人被擦除后泳池表面保持不受影响。在一项有 25 名参与者的人类偏好研究中,VOID 获得了 64.8% 的青睐,超越了领先的商业替代方案 Runway,后者仅获得 18.4%。
此次发布标志着 Netflix Research 首个公开可用的 AI 工具。VOID 采用 Apache 2.0 许可证,可用于商业用途,并托管在 Hugging Face 上。硬件要求目前限制了访问,需要 40GB VRAM GPU 才能运行该模型,但未来的优化和基础设施成本降低可能会扩大可用性。VOID 代表了视频制作技术的转变,从简单的擦除工具转向能够理解和真实重建场景的系统,这一发展对专业工作流程具有重大意义。
这篇文章 Netflix 推出 VOID:用于物理一致性视频对象移除的开源框架 最先出现在 Metaverse Post。

