本文概述了OW-VISCap框架,它能够在视频中联合检测、分割和标注已见和未见的物体。本文概述了OW-VISCap框架,它能够在视频中联合检测、分割和标注已见和未见的物体。

教导人工智能看见和说话:深入了解 OW‑VISCap 方法

摘要和1. 引言

  1. 相关工作

    2.1 开放世界视频实例分割

    2.2 密集视频对象描述和2.3 对象查询的对比损失

    2.4 通用视频理解和2.5 封闭世界视频实例分割

  2. 方法

    3.1 概述

    3.2 开放世界对象查询

    3.3 描述头

    3.4 查询间对比损失和3.5 训练

  3. 实验和4.1 数据集与评估指标

    4.2 主要结果

    4.3 消融研究和4.4 定性结果

  4. 结论、致谢和参考文献

\ 补充材料

A. 额外分析

B. 实现细节

C. 局限性

3 方法

给定一个视频,我们的目标是联合检测、分割和描述视频中存在的对象实例。重要的是,请注意对象实例类别可能不是训练集的一部分(例如,图3(顶行)中显示的降落伞),这使我们的目标处于开放世界设置中。为了实现这一目标,给定的视频首先被分解成短片段,每个片段由T帧组成。每个片段使用我们的方法OW-VISCap进行处理。我们在第4节中讨论每个片段结果的合并。

\ 我们在3.1节中提供OW-VISCap处理每个片段的概述。然后我们讨论我们的贡献:(a)在3.2节中引入开放世界对象查询,(b)在3.3节中使用掩码注意力进行以对象为中心的描述,以及(c)在3.4节中使用查询间对比损失以确保对象查询彼此不同。在3.5节中,我们讨论最终的训练目标。

3.1 概述

\ 开放世界和封闭世界对象查询都由我们专门设计的描述头处理,该描述头生成以对象为中心的描述,分类头生成类别标签,以及检测头生成分割掩码或边界框。

\

\ 我们引入查询间对比损失以确保对象查询被鼓励彼此不同。我们在3.4节中提供详细信息。对于封闭世界对象,这种损失有助于消除高度重叠的假阳性。对于开放世界对象,它有助于发现新对象。

\ 最后,我们在3.5节中提供完整的训练目标。

\

3.2 开放世界对象查询

\

\

\ 我们首先使用匈牙利算法[34]通过最小化匹配成本将真实对象与开放世界预测匹配。然后使用最优匹配来计算最终的开放世界损失。

\

\

3.3 描述头

\

\

3.4 查询间对比损失

\

\

3.5 训练

我们的总训练损失是

\ 表1:BURST验证和测试集上所有、常见(comm.)和不常见(unc.)对象类别的开放世界跟踪准确率(OWTA)。Onl.指在线逐帧处理。最佳分数以粗体突出显示,第二佳分数带有下划线。

\ 表2:VidSTG [57]数据集上的密集视频对象描述结果。Off.表示离线方法,onl.指在线方法。

\

:::info 作者:

(1) Anwesa Choudhuri,伊利诺伊大学厄巴纳-香槟分校 ([email protected]);

(2) Girish Chowdhary,伊利诺伊大学厄巴纳-香槟分校 ([email protected]);

(3) Alexander G. Schwing,伊利诺伊大学厄巴纳-香槟分校 ([email protected])。

:::


:::info 本论文可在arxiv上获取,采用CC by 4.0 Deed(署名4.0国际)许可证。

:::

\

市场机遇
Sleepless AI 图标
Sleepless AI实时价格 (AI)
$0.0355
$0.0355$0.0355
-2.14%
USD
Sleepless AI (AI) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。