Le post Together AI revendique la pile de reconnaissance vocale la plus rapide avec Parakeet v3 est apparu sur BitcoinEthereumNews.com. Felix Pinkston 29 mai 2026 22h48 Together AILe post Together AI revendique la pile de reconnaissance vocale la plus rapide avec Parakeet v3 est apparu sur BitcoinEthereumNews.com. Felix Pinkston 29 mai 2026 22h48 Together AI

Together AI revendique la pile de reconnaissance vocale la plus rapide avec Parakeet v3

2026/05/31 16:49
Temps de lecture : 4 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : [email protected]


Felix Pinkston
29 mai 2026 22:48

Together AI dévoile sa pile ASR la plus rapide, tirant parti de NVIDIA Parakeet v3 et de Whisper pour une transcription en temps réel à faible latence. Détails sur la technologie et son impact sur le marché.

Together AI a annoncé ce qu'elle affirme être la pile de reconnaissance automatique de la parole (ASR) la plus rapide au monde, capable de transcrire 20 heures de discours en moins de 10 secondes. Cette avancée s'appuie sur le Parakeet-TDT 0.6B v3 de NVIDIA et le Whisper Large v3 d'OpenAI, tous deux optimisés pour les applications à faible latence et à débit élevé. Ce développement pourrait considérablement faire progresser les systèmes d'IA vocale en temps réel, un domaine clé sur lequel l'entreprise se concentre au fur et à mesure qu'elle développe son infrastructure.

Le cœur de la réussite de Together AI réside dans le traitement de l'ASR comme un problème de systèmes en chemin complet, plutôt que de se concentrer uniquement sur l'inférence GPU. Cette approche holistique résout les goulots d'étranglement dans le prétraitement, l'exécution GPU, la gestion de la mémoire et la mise en réseau. Par exemple, des innovations telles que l'optimisation de profil TensorRT, les graphes CUDA conditionnels et les chemins de données à copie zéro ont considérablement réduit la latence à travers la pile.

L'une des optimisations les plus remarquables est la boucle de décodeur dans Parakeet v3. En déplaçant la logique conditionnelle du CPU vers le GPU, Together AI a éliminé les coûteux délais de synchronisation, entraînant une accélération de 2 à 3x pour le décodage. De même, l'utilisation de la mémoire partagée et des I/O événementielles pour la transcription en streaming a minimisé la surcharge, garantissant à la fois un débit élevé et une faible gigue pour les applications en temps réel.

Parakeet v3, un modèle ASR multilingue entraîné sur 1,7 million d'heures d'audio, représente un bond majeur par rapport à son prédécesseur. Il prend désormais en charge 25 langues européennes, inclut la détection automatique de la langue et conserve ses performances de pointe pour la transcription en anglais. La plateforme de Together AI intègre également Whisper Large v3 pour les charges de travail à l'échelle de la production, créant un écosystème robuste pour les développeurs qui construisent des applications pilotées par la voix.

Répondre aux besoins du marché

Cette annonce positionne Together AI comme un sérieux concurrent sur le marché ASR, en particulier pour les cas d'utilisation en temps réel et en streaming. Contrairement aux systèmes ASR traditionnels qui reposent sur des pipelines cloisonnés, Together AI propose une pile modulaire où la reconnaissance vocale (STT), la compréhension du langage naturel (NLU) et la synthèse vocale (TTS) peuvent fonctionner de manière cohérente sur la même infrastructure. Cela réduit la latence et permet aux développeurs d'inspecter et de manipuler les sorties intermédiaires, un différenciateur clé pour les agents vocaux en temps réel.

Des partenariats récents soulignent la stratégie de l'entreprise consistant à construire un écosystème ouvert et combinable. En avril 2026, Deepgram a intégré ses modèles ASR directement sur la plateforme de Together AI, permettant aux développeurs de combiner des modèles de reconnaissance vocale spécialisés avec l'infrastructure de Together AI. Cette flexibilité est de plus en plus précieuse à mesure que les charges de travail IA évoluent vers des architectures unifiées, combinant des capacités vocales, linguistiques et multimodales.

Impact sur l'industrie et les investisseurs

Les avancées de Together AI interviennent alors que l'entreprise cherche apparemment à lever des capitaux à une valorisation de 7,5 milliards de dollars, selon des rapports de mars 2026. L'intérêt des investisseurs reflète la demande croissante en infrastructure d'inférence haute performance, en particulier pour les systèmes d'IA vocaux et multimodaux. Avec plus de 450 000 développeurs et 200 modèles open source déjà pris en charge sur sa plateforme, Together AI est bien positionnée pour capitaliser sur cette dynamique.

Des concurrents comme Deepgram et Google dominent encore certains segments du marché ASR, mais l'accent mis par Together AI sur l'hébergement de modèles ouverts et les performances en temps réel pourrait lui permettre de conquérir une part de marché significative. L'intégration de la technologie ASR de NVIDIA renforce davantage sa crédibilité technique, notamment compte tenu du leadership de NVIDIA dans l'optimisation du matériel et des logiciels d'IA.

À mesure que les interfaces vocales deviennent plus intégrales aux applications grand public et aux entreprises, des solutions ASR à faible latence et évolutives comme celle de Together AI pourraient redéfinir les attentes des utilisateurs. Les développeurs, les investisseurs et les entreprises devraient suivre de près l'évolution de l'entreprise alors qu'elle continue d'affiner sa pile et d'élargir son écosystème.

Source de l'image : Shutterstock

Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3

Opportunité de marché
Logo de Gensyn
Cours Gensyn(AI)
$0.03044
$0.03044$0.03044
+0.72%
USD
Graphique du prix de Gensyn (AI) en temps réel

SPACEX(PRE) Launchpad

SPACEX(PRE) LaunchpadSPACEX(PRE) Launchpad

Inscrivez-vous pour tenter un tirage gratuit

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

SPACEX(PRE) Launchpad

SPACEX(PRE) LaunchpadSPACEX(PRE) Launchpad

Inscrivez-vous pour tenter un tirage gratuit