Rongchai Wang
19 Agu 2025 02:26
NVIDIA memperkenalkan Streaming Sortformer, model diarisasi pembicara real-time, yang meningkatkan pelacakan multi-pembicara dalam rapat, panggilan, dan aplikasi suara. Pelajari tentang kemampuan dan potensi aplikasinya.
NVIDIA telah mengumumkan peluncuran inovasi terbarunya, Streaming Sortformer, model diarisasi pembicara real-time yang dirancang untuk merevolusi cara pembicara diidentifikasi dalam rapat, panggilan, dan aplikasi suara. Menurut NVIDIA, model ini direkayasa untuk menangani skenario multi-pembicara dengan latensi rendah, menawarkan integrasi mulus dengan alat NVIDIA NeMo dan NVIDIA Riva.
Fitur Utama dan Kemampuan
Streaming Sortformer menawarkan fitur canggih yang meningkatkan kegunaannya di berbagai aplikasi real-time. Ini menyediakan diarisasi tingkat frame dengan stempel waktu yang tepat untuk setiap ucapan, memastikan pelacakan pembicara yang akurat. Model ini mendukung pelacakan untuk dua hingga empat pembicara dengan latensi minimal dan dioptimalkan untuk inferensi GPU yang efisien, menjadikannya siap untuk alur kerja NeMo dan Riva. Meskipun terutama dioptimalkan untuk bahasa Inggris, model ini juga telah menunjukkan kinerja yang kuat pada dataset Mandarin dan bahasa lainnya.
Kinerja Benchmark
Evaluasi kinerja Streaming Sortformer menunjukkan hasil yang mengesankan dalam Diarization Error Rate (DER), metrik penting untuk akurasi identifikasi pembicara, dengan tingkat yang lebih rendah menunjukkan kinerja yang lebih baik. Model ini bersaing dengan baik melawan sistem yang ada seperti EEND-GLA dan LS-EEND, menunjukkan potensinya dalam konteks pelacakan pembicara langsung.
Aplikasi dan Kasus Penggunaan
Keserba-gunaan model ini terlihat jelas dalam berbagai aplikasinya. Mulai dari menghasilkan transkrip dengan tag pembicara secara langsung selama rapat hingga memfasilitasi kepatuhan dan jaminan kualitas di pusat kontak, Streaming Sortformer siap meningkatkan produktivitas di berbagai sektor. Selain itu, model ini mendukung voicebot dan asisten AI dengan meningkatkan kealamian dialog dan pergantian giliran bicara, serta membantu industri media dan penyiaran dengan pelabelan otomatis untuk tujuan pengeditan.
Arsitektur Teknis
Di balik layar, Streaming Sortformer menggunakan arsitektur canggih yang mencakup modul pra-enkode konvolusional dan serangkaian blok conformer dan transformer. Komponen-komponen ini bekerja secara bersamaan untuk memproses dan menganalisis audio, mengurutkan pembicara berdasarkan kemunculan mereka dalam rekaman. Model ini memproses audio dalam potongan kecil yang tumpang tindih menggunakan Arrival-Order Speaker Cache (AOSC), memastikan identifikasi pembicara yang konsisten sepanjang aliran.
Prospek dan Keterbatasan Masa Depan
Meskipun memiliki kemampuan yang kuat, Streaming Sortformer saat ini dirancang untuk skenario yang melibatkan hingga empat pembicara. NVIDIA mengakui perlunya pengembangan lebih lanjut untuk memperluas kapasitasnya dalam menangani lebih banyak pembicara dan meningkatkan kinerja dalam berbagai bahasa dan lingkungan akustik yang menantang. Rencana juga telah dibuat untuk meningkatkan integrasinya dengan pipeline Riva dan NeMo.
Bagi mereka yang tertarik untuk mengeksplorasi seluk-beluk teknis Streaming Sortformer, penelitian NVIDIA tentang Offline Sortformer tersedia di arXiv.
Sumber gambar: Shutterstock
Sumber: https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification


