Rongchai Wang
19 авг. 2025 02:26
NVIDIA представляет Streaming Sortformer, модель диаризации говорящих в реальном времени, улучшающую отслеживание нескольких говорящих на совещаниях, звонках и в голосовых приложениях. Узнайте о её возможностях и потенциальных применениях.
NVIDIA объявила о запуске своей последней инновации, Streaming Sortformer, модели диаризации говорящих в реальном времени, разработанной для революционного изменения способа идентификации говорящих на совещаниях, звонках и в голосовых приложениях. По данным NVIDIA, эта модель разработана для обработки сценариев с низкой задержкой и несколькими говорящими, предлагая бесшовную интеграцию с инструментами NVIDIA NeMo и NVIDIA Riva.
Ключевые особенности и возможности
Streaming Sortformer предлагает расширенные функции, которые повышают его удобство использования в различных приложениях реального времени. Он обеспечивает диаризацию на уровне кадров с точными временными метками для каждого высказывания, обеспечивая точное отслеживание говорящих. Модель поддерживает отслеживание от двух до четырех говорящих с минимальной задержкой и оптимизирована для эффективного вывода на GPU, что делает её готовой для рабочих процессов NeMo и Riva. Хотя она в первую очередь оптимизирована для английского языка, она также продемонстрировала высокую производительность на наборах данных на мандаринском диалекте и других языках.
Эталонная производительность
Оценка производительности Streaming Sortformer показывает впечатляющие результаты в показателе ошибки диаризации (DER), критическом показателе точности идентификации говорящих, где более низкие показатели указывают на лучшую производительность. Модель успешно конкурирует с существующими системами, такими как EEND-GLA и LS-EEND, демонстрируя свой потенциал в контекстах отслеживания говорящих в реальном времени.
Применения и варианты использования
Универсальность модели очевидна в широком спектре её применений. От создания живых транскриптов с метками говорящих во время совещаний до обеспечения соответствия требованиям и контроля качества в контакт-центрах, Streaming Sortformer готов повысить производительность во всех секторах. Кроме того, он поддерживает голосовых ботов и ИИ-ассистентов, улучшая естественность диалога и очередность выступлений, а также помогает медиа и вещательным индустриям с автоматической маркировкой для целей редактирования.
Техническая архитектура
Под капотом Streaming Sortformer использует сложную архитектуру, которая включает сверточный модуль предварительного кодирования и серию блоков конформера и трансформера. Эти компоненты работают в тандеме для обработки и анализа аудио, сортируя говорящих на основе их появления в записи. Модель обрабатывает аудио в небольших перекрывающихся фрагментах, используя кэш говорящих по порядку прибытия (AOSC), обеспечивая последовательную идентификацию говорящих на протяжении всего потока.
Перспективы и ограничения
Несмотря на свои надежные возможности, Streaming Sortformer в настоящее время разработан для сценариев с участием до четырех говорящих. NVIDIA признает необходимость дальнейшего развития для расширения его возможностей по обработке большего числа говорящих и улучшения производительности на различных языках и в сложных акустических средах. Также планируется улучшить его интеграцию с конвейерами Riva и NeMo.
Для тех, кто интересуется техническими тонкостями Streaming Sortformer, исследование NVIDIA по Offline Sortformer доступно на arXiv.
Источник изображения: Shutterstock
Источник: https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification


