文章《NVIDIA 推出用于实时说话者识别的 Streaming Sortformer》发布于 BitcoinEthereumNews.com。 王荣柴 2025年8月19日 02:26 NVIDIA 推出 Streaming Sortformer,一种实时说话者分离模型,增强了会议、通话和语音应用中的多说话者追踪功能。了解其功能和潜在应用。 NVIDIA 宣布推出其最新创新产品 Streaming Sortformer,这是一种实时说话者分离模型,旨在彻底改变在会议、通话和语音应用中识别说话者的方式。据 NVIDIA 介绍,该模型专为处理低延迟、多说话者场景而设计,可与 NVIDIA NeMo 和 NVIDIA Riva 工具无缝集成。主要特点和功能 Streaming Sortformer 提供先进功能,增强了其在各种实时应用中的可用性。它提供帧级分离,为每个话语提供精确的时间戳,确保准确的说话者追踪。该模型支持以最小延迟追踪两到四位说话者,并针对高效 GPU 推理进行了优化,使其可用于 NeMo 和 Riva 工作流程。虽然主要针对英语进行了优化,但它在普通话数据集和其他语言上也表现出色。基准性能 Streaming Sortformer 的性能评估在分离错误率(DER)方面显示出令人印象深刻的结果,这是说话者识别准确性的关键指标,较低的错误率表示更好的性能。该模型与现有系统如 EEND-GLA 和 LS-EEND 相比表现良好,展示了其在实时说话者追踪环境中的潜力。应用和使用案例 该模型的多功能性体现在其广泛的应用范围。从在会议期间生成带有说话者标签的实时转录,到促进联络中心的合规性和质量保证,Streaming Sortformer 有望提高各行业的生产力。此外,它通过改善对话自然度和轮流发言来支持语音机器人和 AI 助手,并通过自动标记帮助媒体和广播行业进行编辑。技术架构 在底层,Streaming Sortformer 采用了复杂的架构,包括卷积预编码...文章《NVIDIA 推出用于实时说话者识别的 Streaming Sortformer》发布于 BitcoinEthereumNews.com。 王荣柴 2025年8月19日 02:26 NVIDIA 推出 Streaming Sortformer,一种实时说话者分离模型,增强了会议、通话和语音应用中的多说话者追踪功能。了解其功能和潜在应用。 NVIDIA 宣布推出其最新创新产品 Streaming Sortformer,这是一种实时说话者分离模型,旨在彻底改变在会议、通话和语音应用中识别说话者的方式。据 NVIDIA 介绍,该模型专为处理低延迟、多说话者场景而设计,可与 NVIDIA NeMo 和 NVIDIA Riva 工具无缝集成。主要特点和功能 Streaming Sortformer 提供先进功能,增强了其在各种实时应用中的可用性。它提供帧级分离,为每个话语提供精确的时间戳,确保准确的说话者追踪。该模型支持以最小延迟追踪两到四位说话者,并针对高效 GPU 推理进行了优化,使其可用于 NeMo 和 Riva 工作流程。虽然主要针对英语进行了优化,但它在普通话数据集和其他语言上也表现出色。基准性能 Streaming Sortformer 的性能评估在分离错误率(DER)方面显示出令人印象深刻的结果,这是说话者识别准确性的关键指标,较低的错误率表示更好的性能。该模型与现有系统如 EEND-GLA 和 LS-EEND 相比表现良好,展示了其在实时说话者追踪环境中的潜力。应用和使用案例 该模型的多功能性体现在其广泛的应用范围。从在会议期间生成带有说话者标签的实时转录,到促进联络中心的合规性和质量保证,Streaming Sortformer 有望提高各行业的生产力。此外,它通过改善对话自然度和轮流发言来支持语音机器人和 AI 助手,并通过自动标记帮助媒体和广播行业进行编辑。技术架构 在底层,Streaming Sortformer 采用了复杂的架构,包括卷积预编码...

NVIDIA 推出流式 Sortformer 实时说话人识别技术



Rongchai Wang
2025年8月19日 02:26

英伟达推出Streaming Sortformer,一种实时说话人分类模型,增强会议、通话和语音应用中的多说话人跟踪。了解其功能和潜在应用。



英伟达推出Streaming Sortformer实现实时说话人识别

英伟达宣布推出其最新创新产品Streaming Sortformer,这是一种实时说话人分类模型,旨在彻底改变在会议、通话和语音应用中识别说话人的方式。据英伟达称,该模型专为处理低延迟、多说话人场景而设计,可与英伟达NeMo和英伟达Riva工具无缝集成。

主要特点和功能

Streaming Sortformer提供先进功能,增强其在各种实时应用中的可用性。它提供帧级分类,为每个话语提供精确时间戳,确保准确的说话人跟踪。该模型支持以最小延迟跟踪两到四位说话人,并针对高效GPU推理进行了优化,使其可用于NeMo和Riva工作流程。虽然主要针对英语进行优化,但它在普通话数据集和其他语言上也表现出色。

基准性能

对Streaming Sortformer的性能评估显示,在说话人分类错误率(DER)方面取得了令人印象深刻的结果,这是衡量说话人识别准确性的关键指标,较低的错误率表示更好的性能。该模型与现有系统如EEND-GLA和LS-EEND相比表现良好,展示了其在实时说话人跟踪环境中的潜力。

应用和使用场景

该模型的多功能性体现在其广泛的应用范围。从在会议期间生成带有说话人标签的实时转录,到促进联络中心的合规性和质量保证,Streaming Sortformer有望提高各行业的生产力。此外,它通过改善对话自然度和轮流发言,支持语音机器人和AI助手,并通过自动标记辅助媒体和广播行业的编辑工作。

技术架构

在底层,Streaming Sortformer采用了复杂的架构,包括卷积预编码模块和一系列conformer和transformer块。这些组件协同工作,处理和分析音频,根据说话人在录音中的出现对其进行排序。该模型使用到达顺序说话人缓存(AOSC)处理小型重叠音频块,确保整个流程中说话人识别的一致性。

未来前景和局限性

尽管具有强大的功能,Streaming Sortformer目前设计用于涉及最多四位说话人的场景。英伟达承认需要进一步开发,以扩展其处理更多说话人的能力,并提高在各种语言和具有挑战性的声学环境中的性能。还计划加强其与Riva和NeMo管道的集成。

对于有兴趣探索Streaming Sortformer技术细节的人,英伟达关于Offline Sortformer的研究可在arXiv上获取。

图片来源:Shutterstock


来源:https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

市场机遇
RealLink 图标
RealLink实时价格 (REAL)
$0.07229
$0.07229$0.07229
-2.05%
USD
RealLink (REAL) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。