xAI lansează API-uri Grok Speech, reducând prețurile concurenților cu 60%
Zach Anderson 18 apr. 2026 00:53
xAI a lui Elon Musk lansează API-urile Grok Speech to Text și Text to Speech la $0,10/oră, susținând că are cele mai scăzute rate de eroare pe benchmark-urile de transcriere pentru întreprinderi.
xAI a lui Elon Musk a lansat pe 17 aprilie două API-uri audio de sine stătătoare, poziționând tehnologia de vorbire Grok ca un concurent direct pentru ElevenLabs, Deepgram și AssemblyAI la prețuri agresive.
API-ul Grok Speech to Text costă $0,10 pe oră pentru procesarea în lot și $0,20 pe oră pentru streaming în timp real. Text to Speech costă $4,20 per milion de caractere. Ambele valorifică aceeași infrastructură care alimentează vehiculele Tesla și serviciul de asistență pentru clienți Starlink.
Afirmații de benchmark care merită analizate
Ratele de eroare de cuvinte publicate de xAI spun o poveste interesantă. La recunoașterea entităților din apelurile telefonice—gândește-te la nume, numere de cont, date—Grok STT susține o rată de eroare de 5,0% față de ElevenLabs cu 12,0%, Deepgram cu 13,5% și AssemblyAI cu 21,3%. Aceasta este o diferență semnificativă dacă se menține în producție.
Compania a demonstrat acest lucru cu un caz de test dificil: transcrierea numelor galeze precum "Anghared Llewelyn Bowen" și "Oisin MacGiolla Phadraig" alături de detalii despre ipotecă. Grok a reușit perfect, cu zero erori. Modelele concurente s-au împiedicat la pronunții și au formatat datele inconsecvent.
Transcrierea video și podcast arată o competiție mai strânsă—Grok și ElevenLabs la egalitate cu o rată de eroare de 2,4%, cu Deepgram și AssemblyAI urmând ușor la 3,0% și respectiv 3,2%.
Caracteristici tehnice pentru dezvoltatori
Dincolo de transcrierea brută, xAI a integrat funcții de care clienții din întreprinderi au cu adevărat nevoie: marcaje temporale la nivel de cuvânt, diarizarea vorbitorilor pe mai multe canale audio și suport pentru peste 25 de limbi cu comutare perfectă.
Funcția de Normalizare Inversă a Textului convertește automat numerele, datele și valutele vorbite în formate adecvate. "Four one four five five five one two three four" devine un număr de telefon. "Six ninety-nine" devine $6,99. Detaliu mic, dar elimină problemele de post-procesare.
Text to Speech include etichete inline pentru controlul prozodiei—șoapte, râsete, suspine, accent, ajustări de ritm. Dezvoltatorii pot injecta nuanțe emoționale fără a se lupta cu markup-uri audio complexe.
Context strategic
Această lansare urmează achiziției X Corp de către xAI în martie 2025 și vine în timp ce compania își extinde parteneriatele de infrastructură. Doar două zile înainte de anunțul API-ului, au apărut rapoarte că xAI plănuiește să furnizeze putere de calcul către Cursor, startup-ul de codare alimentat de AI.
Supercalculatorul Colossus, operațional din decembrie 2024, oferă forța backend. xAI pare să monetizeze acea capacitate pe mai multe verticale—AI pentru întreprinderi, instrumente pentru dezvoltatori și acum API-uri vocale.
Pentru dezvoltatorii care construiesc agenți vocali sau instrumente de transcriere, prețurile sunt substanțial mai mici decât ale jucătorilor consacrați. Dacă afirmațiile de acuratețe ale Grok vor supraviețui implementării în lumea reală la scară largă rămâne o întrebare deschisă. Documentația și limitele de rată sunt disponibile prin consola API xAI pentru cei gata să o testeze.
Sursa imagine: Shutterstock- xai
- grok
- ai apis
- recunoaștere vocală
- elon musk








