Felix Pinkston
29 พฤษภาคม 2026 22:48
Together AI เปิดตัวสแตก ASR ที่เร็วที่สุด โดยใช้ประโยชน์จาก NVIDIA Parakeet v3 และ Whisper สำหรับการถอดเสียงแบบเรียลไทม์และเวลาแฝงต่ำ รายละเอียดเกี่ยวกับเทคโนโลยีและผลกระทบต่อตลาด
Together AI ได้ประกาศเปิดตัวสิ่งที่อ้างว่าเป็นสแตก ASR (การแปลงเสียงพูดเป็นข้อความ) ที่เร็วที่สุดในโลก ซึ่งสามารถถอดเสียงได้ 20 ชั่วโมงในเวลาไม่ถึง 10 วินาที ความก้าวหน้านี้ใช้ประโยชน์จาก Parakeet-TDT 0.6B v3 ของ NVIDIA และ Whisper Large v3 ของ OpenAI ซึ่งทั้งคู่ได้รับการปรับแต่งสำหรับแอปพลิเคชันที่ต้องการเวลาแฝงต่ำและปริมาณงานสูง การพัฒนานี้อาจช่วยส่งเสริมระบบ AI เสียงแบบเรียลไทม์อย่างมีนัยสำคัญ ซึ่งเป็นพื้นที่สำคัญที่บริษัทให้ความสำคัญในขณะที่ขยายโครงสร้างพื้นฐาน
หัวใจสำคัญของความสำเร็จของ Together AI อยู่ที่การมองปัญหา ASR ในฐานะปัญหาของระบบแบบเต็มเส้นทาง แทนที่จะมุ่งเน้นเฉพาะการอนุมานบน GPU เท่านั้น แนวทางแบบองค์รวมนี้แก้ไขคอขวดในด้านการประมวลผลล่วงหน้า การประมวลผลบน GPU การจัดการหน่วยความจำ และระบบเครือข่าย ตัวอย่างเช่น นวัตกรรมอย่าง TensorRT profile tuning, conditional CUDA graphs และ zero-copy data paths ได้ลดเวลาแฝงทั่วทั้งสแตกอย่างมาก
การปรับปรุงที่โดดเด่นอย่างหนึ่งคือ decoder loop ใน Parakeet v3 ด้วยการย้าย conditional logic จาก CPU ไปยัง GPU Together AI สามารถกำจัดความล่าช้าในการซิงโครไนซ์ที่มีต้นทุนสูง ส่งผลให้การถอดรหัสเร็วขึ้น 2-3 เท่า ในทำนองเดียวกัน การใช้ shared memory และ evented I/O สำหรับการถอดเสียงแบบสตรีมมิงได้ลด overhead ให้เหลือน้อยที่สุด เพื่อให้มั่นใจว่ามีทั้งปริมาณงานสูงและ jitter ต่ำสำหรับแอปพลิเคชันแบบเรียลไทม์
Parakeet v3 ซึ่งเป็นโมเดล ASR หลายภาษาที่ฝึกด้วยข้อมูลเสียง 1.7 ล้านชั่วโมง ถือเป็นก้าวกระโดดครั้งใหญ่จากรุ่นก่อนหน้า ขณะนี้รองรับ 25 ภาษายุโรป มีระบบตรวจจับภาษาอัตโนมัติ และยังคงรักษาประสิทธิภาพชั้นนำในอุตสาหกรรมสำหรับการถอดเสียงภาษาอังกฤษ แพลตฟอร์มของ Together AI ยังรวม Whisper Large v3 สำหรับภาระงานระดับการผลิต สร้างระบบนิเวศที่แข็งแกร่งสำหรับนักพัฒนาที่สร้างแอปพลิเคชันที่ขับเคลื่อนด้วยเสียง
การตอบสนองความต้องการของตลาด
การประกาศครั้งนี้วางตำแหน่ง Together AI ให้เป็นผู้แข่งขันที่จริงจังในตลาด ASR โดยเฉพาะอย่างยิ่งสำหรับกรณีการใช้งานแบบเรียลไทม์และสตรีมมิง ต่างจากระบบ ASR แบบดั้งเดิมที่อาศัยไปป์ไลน์แบบแยกส่วน Together AI นำเสนอสแตกแบบโมดูลาร์ที่ STT (การแปลงเสียงพูดเป็นข้อความ) NLU (การทำความเข้าใจภาษาธรรมชาติ) และ TTS (การแปลงข้อความเป็นเสียงพูด) สามารถทำงานร่วมกันได้อย่างสอดคล้องบนโครงสร้างพื้นฐานเดียวกัน ซึ่งช่วยลดเวลาแฝงและช่วยให้นักพัฒนาตรวจสอบและจัดการผลลัพธ์ระหว่างกลางได้ ซึ่งเป็นความแตกต่างสำคัญสำหรับ voice agent แบบเรียลไทม์
ความร่วมมือล่าสุดเน้นย้ำกลยุทธ์ของบริษัทในการสร้างระบบนิเวศแบบเปิดและประกอบได้ ในเดือนเมษายน 2026 Deepgram ได้รวมโมเดล ASR ของตนเข้ากับแพลตฟอร์มของ Together AI โดยตรง ช่วยให้นักพัฒนาสามารถเลือกและจับคู่โมเดลเสียงเฉพาะทางกับโครงสร้างพื้นฐานของ Together AI ได้ ความยืดหยุ่นนี้มีคุณค่ามากขึ้นเรื่อยๆ เมื่อภาระงาน AI เคลื่อนไปสู่สถาปัตยกรรมแบบรวม ที่ผสมผสานความสามารถด้านเสียง ภาษา และมัลติโมดัล
ผลกระทบต่ออุตสาหกรรมและนักลงทุน
ความก้าวหน้าของ Together AI เกิดขึ้นในขณะที่บริษัทกำลังมองหาการระดมทุนในมูลค่า 7.5 พันล้านดอลลาร์ ตามรายงานในเดือนมีนาคม 2026 ความสนใจของนักลงทุนสะท้อนให้เห็นถึงความต้องการที่เพิ่มขึ้นสำหรับโครงสร้างพื้นฐานการอนุมานประสิทธิภาพสูง โดยเฉพาะสำหรับระบบ AI ด้านเสียงและมัลติโมดัล ด้วยนักพัฒนามากกว่า 450,000 รายและโมเดลโอเพนซอร์ส 200 โมเดลที่รองรับบนแพลตฟอร์มแล้ว Together AI อยู่ในตำแหน่งที่ดีเพื่อใช้ประโยชน์จากโมเมนตัมนี้
คู่แข่งอย่าง Deepgram และ Google ยังคงครองส่วนแบ่งในตลาด ASR แต่การที่ Together AI มุ่งเน้นการโฮสต์โมเดลแบบเปิดและประสิทธิภาพแบบเรียลไทม์อาจสร้างส่วนแบ่งตลาดที่สำคัญได้ การผนวกรวมเทคโนโลยี ASR ของ NVIDIA ยิ่งเสริมความน่าเชื่อถือทางเทคนิคของบริษัท โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงความเป็นผู้นำของ NVIDIA ในด้านฮาร์ดแวร์ AI และการปรับแต่งซอฟต์แวร์
เมื่อ voice interface กลายเป็นส่วนสำคัญมากขึ้นสำหรับแอปพลิเคชันสำหรับผู้บริโภคและองค์กร โซลูชัน ASR ที่มีเวลาแฝงต่ำและปรับขนาดได้อย่าง Together AI อาจกำหนดนิยามความคาดหวังของผู้ใช้ใหม่ นักพัฒนา นักลงทุน และองค์กรต่างๆ ควรติดตามอย่างใกล้ชิดเมื่อบริษัทยังคงพัฒนาสแตกและขยายระบบนิเวศต่อไป
แหล่งที่มาของภาพ: Shutterstock
Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3








