本文概述了OW-VISCap框架,它能够在视频中联合检测、分割和标注已见和未见的物体。本文概述了OW-VISCap框架,它能够在视频中联合检测、分割和标注已见和未见的物体。

教导人工智能看见和说话:深入了解 OW‑VISCap 方法

2025/11/04 17:46
阅读时长 5 分钟

摘要和1. 引言

  1. 相关工作

    2.1 开放世界视频实例分割

    2.2 密集视频对象描述和2.3 对象查询的对比损失

    2.4 通用视频理解和2.5 封闭世界视频实例分割

  2. 方法

    3.1 概述

    3.2 开放世界对象查询

    3.3 描述头

    3.4 查询间对比损失和3.5 训练

  3. 实验和4.1 数据集与评估指标

    4.2 主要结果

    4.3 消融研究和4.4 定性结果

  4. 结论、致谢和参考文献

\ 补充材料

A. 额外分析

B. 实现细节

C. 局限性

3 方法

给定一个视频,我们的目标是联合检测、分割和描述视频中存在的对象实例。重要的是,请注意对象实例类别可能不是训练集的一部分(例如,图3(顶行)中显示的降落伞),这使我们的目标处于开放世界设置中。为了实现这一目标,给定的视频首先被分解成短片段,每个片段由T帧组成。每个片段使用我们的方法OW-VISCap进行处理。我们在第4节中讨论每个片段结果的合并。

\ 我们在3.1节中提供OW-VISCap处理每个片段的概述。然后我们讨论我们的贡献:(a)在3.2节中引入开放世界对象查询,(b)在3.3节中使用掩码注意力进行以对象为中心的描述,以及(c)在3.4节中使用查询间对比损失以确保对象查询彼此不同。在3.5节中,我们讨论最终的训练目标。

3.1 概述

\ 开放世界和封闭世界对象查询都由我们专门设计的描述头处理,该描述头生成以对象为中心的描述,分类头生成类别标签,以及检测头生成分割掩码或边界框。

\

\ 我们引入查询间对比损失以确保对象查询被鼓励彼此不同。我们在3.4节中提供详细信息。对于封闭世界对象,这种损失有助于消除高度重叠的假阳性。对于开放世界对象,它有助于发现新对象。

\ 最后,我们在3.5节中提供完整的训练目标。

\

3.2 开放世界对象查询

\

\

\ 我们首先使用匈牙利算法[34]通过最小化匹配成本将真实对象与开放世界预测匹配。然后使用最优匹配来计算最终的开放世界损失。

\

\

3.3 描述头

\

\

3.4 查询间对比损失

\

\

3.5 训练

我们的总训练损失是

\ 表1:BURST验证和测试集上所有、常见(comm.)和不常见(unc.)对象类别的开放世界跟踪准确率(OWTA)。Onl.指在线逐帧处理。最佳分数以粗体突出显示,第二佳分数带有下划线。

\ 表2:VidSTG [57]数据集上的密集视频对象描述结果。Off.表示离线方法,onl.指在线方法。

\

:::info 作者:

(1) Anwesa Choudhuri,伊利诺伊大学厄巴纳-香槟分校 ([email protected]);

(2) Girish Chowdhary,伊利诺伊大学厄巴纳-香槟分校 ([email protected]);

(3) Alexander G. Schwing,伊利诺伊大学厄巴纳-香槟分校 ([email protected])。

:::


:::info 本论文可在arxiv上获取,采用CC by 4.0 Deed(署名4.0国际)许可证。

:::

\

市场机遇
null 图标
null实时价格 (null)
--
----
USD
null (null) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。