L'article NVIDIA dévoile le Streaming Sortformer pour l'Identification par video des locuteurs en temps réel est apparu sur BitcoinEthereumNews.com. Rongchai Wang 19 août 2025 02h26 NVIDIA présente Streaming Sortformer, un modèle de diarisation de locuteurs en temps réel, améliorant le Suivi en temps réel de plusieurs locuteurs dans les réunions, les appels et les applications vocales. Découvrez ses capacités et ses applications potentielles. NVIDIA a annoncé le lancement de sa dernière innovation, le Streaming Sortformer, un modèle de diarisation de locuteurs en temps réel conçu pour révolutionner la façon dont les locuteurs sont identifiés dans les réunions, les appels et les applications vocales. Selon NVIDIA, ce modèle est conçu pour gérer des scénarios multi-locuteurs à faible Latence, offrant une intégration transparente avec les outils NVIDIA NeMo et NVIDIA Riva. Caractéristiques et capacités clés Le Streaming Sortformer offre des fonctionnalités avancées qui améliorent son utilisabilité dans diverses applications en temps réel. Il fournit une diarisation au niveau des trames avec des horodatages précis pour chaque énoncé, assurant un Suivi en temps réel précis des locuteurs. Le modèle prend en charge le suivi de deux à quatre locuteurs avec une Latence minimale et est optimisé pour une inférence GPU efficace, le rendant prêt pour les flux de travail NeMo et Riva. Bien qu'optimisé principalement pour l'anglais, il a également démontré de solides performances sur des ensembles de données en mandarin et d'autres langues. Performance de référence L'évaluation des performances du Streaming Sortformer montre des résultats impressionnants en termes de taux d'erreur de diarisation (DER), une métrique critique pour la précision de l'Identification par video des locuteurs, avec des taux plus bas indiquant une meilleure performance. Le modèle se compare favorablement aux systèmes existants comme EEND-GLA et LS-EEND, démontrant son potentiel dans les contextes de suivi de locuteurs en direct. Applications et cas d'utilisation La polyvalence du modèle est évidente dans sa large gamme d'applications. De la génération de transcriptions en direct étiquetées par locuteur pendant les réunions à la facilitation de la conformité et de l'assurance qualité dans les centres de contact, le Streaming Sortformer est prêt à améliorer la productivité dans tous les secteurs. De plus, il prend en charge les robots vocaux et les assistants IA en améliorant le naturel du dialogue et la prise de parole, et aide les industries des médias et de la diffusion avec l'étiquetage automatique à des fins d'édition. Architecture technique Sous le capot, le Streaming Sortformer emploie une architecture sophistiquée qui comprend un pré-encodage convolutionnel...L'article NVIDIA dévoile le Streaming Sortformer pour l'Identification par video des locuteurs en temps réel est apparu sur BitcoinEthereumNews.com. Rongchai Wang 19 août 2025 02h26 NVIDIA présente Streaming Sortformer, un modèle de diarisation de locuteurs en temps réel, améliorant le Suivi en temps réel de plusieurs locuteurs dans les réunions, les appels et les applications vocales. Découvrez ses capacités et ses applications potentielles. NVIDIA a annoncé le lancement de sa dernière innovation, le Streaming Sortformer, un modèle de diarisation de locuteurs en temps réel conçu pour révolutionner la façon dont les locuteurs sont identifiés dans les réunions, les appels et les applications vocales. Selon NVIDIA, ce modèle est conçu pour gérer des scénarios multi-locuteurs à faible Latence, offrant une intégration transparente avec les outils NVIDIA NeMo et NVIDIA Riva. Caractéristiques et capacités clés Le Streaming Sortformer offre des fonctionnalités avancées qui améliorent son utilisabilité dans diverses applications en temps réel. Il fournit une diarisation au niveau des trames avec des horodatages précis pour chaque énoncé, assurant un Suivi en temps réel précis des locuteurs. Le modèle prend en charge le suivi de deux à quatre locuteurs avec une Latence minimale et est optimisé pour une inférence GPU efficace, le rendant prêt pour les flux de travail NeMo et Riva. Bien qu'optimisé principalement pour l'anglais, il a également démontré de solides performances sur des ensembles de données en mandarin et d'autres langues. Performance de référence L'évaluation des performances du Streaming Sortformer montre des résultats impressionnants en termes de taux d'erreur de diarisation (DER), une métrique critique pour la précision de l'Identification par video des locuteurs, avec des taux plus bas indiquant une meilleure performance. Le modèle se compare favorablement aux systèmes existants comme EEND-GLA et LS-EEND, démontrant son potentiel dans les contextes de suivi de locuteurs en direct. Applications et cas d'utilisation La polyvalence du modèle est évidente dans sa large gamme d'applications. De la génération de transcriptions en direct étiquetées par locuteur pendant les réunions à la facilitation de la conformité et de l'assurance qualité dans les centres de contact, le Streaming Sortformer est prêt à améliorer la productivité dans tous les secteurs. De plus, il prend en charge les robots vocaux et les assistants IA en améliorant le naturel du dialogue et la prise de parole, et aide les industries des médias et de la diffusion avec l'étiquetage automatique à des fins d'édition. Architecture technique Sous le capot, le Streaming Sortformer emploie une architecture sophistiquée qui comprend un pré-encodage convolutionnel...

NVIDIA dévoile Streaming Sortformer pour l'identification des locuteurs en temps réel



Rongchai Wang
19 août 2025 02:26

NVIDIA présente Streaming Sortformer, un modèle de diarisation de locuteurs en temps réel, améliorant le suivi multi-locuteurs dans les réunions, les appels et les applications vocales. Découvrez ses capacités et ses applications potentielles.



NVIDIA dévoile Streaming Sortformer pour l'identification de locuteurs en temps réel

NVIDIA a annoncé le lancement de sa dernière innovation, le Streaming Sortformer, un modèle de diarisation de locuteurs en temps réel conçu pour révolutionner la façon dont les locuteurs sont identifiés dans les réunions, les appels et les applications vocales. Selon NVIDIA, ce modèle est conçu pour gérer des scénarios multi-locuteurs à faible latence, offrant une intégration transparente avec les outils NVIDIA NeMo et NVIDIA Riva.

Caractéristiques et capacités clés

Le Streaming Sortformer offre des fonctionnalités avancées qui améliorent son utilisabilité dans diverses applications en temps réel. Il fournit une diarisation au niveau de la trame avec des horodatages précis pour chaque énoncé, assurant un suivi précis des locuteurs. Le modèle prend en charge le suivi de deux à quatre locuteurs avec une latence minimale et est optimisé pour une inférence GPU efficace, le rendant prêt pour les flux de travail NeMo et Riva. Bien qu'il soit principalement optimisé pour l'anglais, il a également démontré de solides performances sur des ensembles de données en mandarin et d'autres langues.

Performance de référence

L'évaluation des performances du Streaming Sortformer montre des résultats impressionnants en termes de Taux d'Erreur de Diarisation (DER), une métrique critique pour la précision d'identification des locuteurs, avec des taux plus bas indiquant de meilleures performances. Le modèle se compare favorablement aux systèmes existants comme EEND-GLA et LS-EEND, démontrant son potentiel dans les contextes de suivi de locuteurs en direct.

Applications et cas d'utilisation

La polyvalence du modèle est évidente dans sa large gamme d'applications. De la génération de transcriptions en direct étiquetées par locuteur pendant les réunions à la facilitation de la conformité et de l'assurance qualité dans les centres de contact, le Streaming Sortformer est prêt à améliorer la productivité dans tous les secteurs. De plus, il prend en charge les robots vocaux et les assistants IA en améliorant le naturel du dialogue et la prise de parole, et aide les industries des médias et de la diffusion avec l'étiquetage automatique à des fins d'édition.

Architecture technique

Sous le capot, le Streaming Sortformer emploie une architecture sophistiquée qui comprend un module de pré-encodage convolutif et une série de blocs conformer et transformer. Ces composants travaillent en tandem pour traiter et analyser l'audio, triant les locuteurs en fonction de leur apparition dans l'enregistrement. Le modèle traite l'audio en petits morceaux qui se chevauchent en utilisant un cache de locuteurs par ordre d'arrivée (AOSC), assurant une identification cohérente des locuteurs tout au long du flux.

Perspectives d'avenir et limitations

Malgré ses capacités robustes, le Streaming Sortformer est actuellement conçu pour des scénarios impliquant jusqu'à quatre locuteurs. NVIDIA reconnaît la nécessité de poursuivre le développement pour étendre sa capacité à gérer plus de locuteurs et améliorer les performances dans diverses langues et environnements acoustiques difficiles. Des plans sont également en place pour améliorer son intégration avec les pipelines Riva et NeMo.

Pour ceux qui s'intéressent à explorer les subtilités techniques du Streaming Sortformer, la recherche de NVIDIA sur l'Offline Sortformer est disponible sur arXiv.

Source de l'image : Shutterstock


Source : https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

Opportunité de marché
Logo de RealLink
Cours RealLink(REAL)
$0.07262
$0.07262$0.07262
-1.61%
USD
Graphique du prix de RealLink (REAL) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.