Intron, लागोस स्थित एक AI स्टार्टअप ने आधिकारिक तौर पर Sahara-v2 लॉन्च किया है, जो इसका फ्लैगशिप, दूसरी पीढ़ी का वॉयस AI मॉडल है, जो वैश्विक स्पीच रिकग्निशन के लिए नए मानक स्थापित करता है। यह मॉडल 24 नई अफ्रीकी भाषाओं का समर्थन करता है और 500 से अधिक विशिष्ट अफ्रीकी अंग्रेजी उच्चारणों में महारत रखता है, जिससे कंपनी की कुल भाषा कवरेज अभूतपूर्व 57 तक पहुंच गई है।
वर्षों से, Siri, Alexa जैसे वैश्विक वॉयस असिस्टेंट या मानक टेक्स्ट-टू-स्पीच इंजन के साथ बातचीत करना ऐसा लगता है जैसे आप किसी ऐसी दीवार से बात कर रहे हों जो मूल रूप से आपकी भाषा नहीं बोलती। हम सभी इस स्थिति से गुजरे हैं, वॉयस कमांड का उपयोग करने की कोशिश करते हैं केवल "No worry, e go better" जैसे स्थानीय वाक्यांश को बेतुके "No war eagle butter" में ट्रांसक्राइब किया जाता है। यह पहले मज़ेदार लगता है, लेकिन जब "Wanjiru" को "One zero" में डिजिटाइज़ किया जाता है और "Chukwuebuka" अस्पष्ट रूप से "Check wheelchair baker" बन जाता है, तो मज़ाक जल्दी फीका पड़ जाता है।
ये बार-बार होने वाली ट्रांसक्रिप्शन विफलताएं केवल तकनीकी गड़बड़ियां नहीं हैं; ये डिजिटल बहिष्करण का एक सक्रिय रूप हैं। मुख्य रूप से पश्चिमी डेटासेट पर निर्मित, अग्रणी वैश्विक AI मॉडल यहां पूरी तरह से निशाना चूक जाते हैं। वे हमारी भाषण की स्वर समृद्धि के लिए तैयार नहीं हैं, जहां एक शब्द उच्चारण के आधार पर छह अलग-अलग चीजों का मतलब हो सकता है। वे हमारी प्राकृतिक लयबद्ध कोड-स्विचिंग पर लड़खड़ाते हैं और यह नहीं समझ सकते कि एक ही कार्यालय में दस पूरी तरह से अलग उच्चारणों वाले कर्मचारी हो सकते हैं। जब वॉयस असिस्टेंट बुनियादी शब्दों और नामों को गलत समझते हैं, तो वे लाखों उपयोगकर्ताओं को डिजिटल शॉर्टकट से बाहर कर देते हैं जो आधुनिक जीवन को आसान बनाते हैं।
Intron
Sahara-v2 इस महत्वपूर्ण अंतर को पाटता है क्योंकि यह धारणाओं पर नहीं बनाया गया था या किसी शांत, बाँझ स्टूडियो में प्रशिक्षित नहीं किया गया था। Intron ने इस मॉडल को सड़कों पर जाकर और सुनकर बनाया। डेटासेट विशाल और अति-स्थानीयकृत है: 14 मिलियन से अधिक ऑडियो क्लिप, कुल 50,000 घंटे से अधिक की भाषण, 40,000 से अधिक स्पीकर्स से प्राप्त। ये आवाजें 30 से अधिक देशों में 64 अफ्रीकी और डायस्पोरा भाषाओं का प्रतिनिधित्व करती हैं। महत्वपूर्ण रूप से, इन्हें वहां रिकॉर्ड किया गया जहां AI को वास्तव में कार्य करने की आवश्यकता है, भीड़भाड़ वाले क्लीनिक, शोरगुल वाले बाजार, व्यस्त कॉल सेंटर और अदालतों में।
इस जमीनी स्तर से, वास्तविक दुनिया के दृष्टिकोण ने Sahara-v2 को वैश्विक तकनीक के सबसे बड़े नामों से आगे निकलने की अनुमति दी है। जब Gemini-3, GPT-4, Whisper, ElevenLabs, AWS और Azure जैसे उद्योग दिग्गजों के खिलाफ बेंचमार्क किया गया, तो Intron का मॉडल प्रभावशाली बढ़त प्रदान करता है।
यह अफ्रीकी नामों, संगठनों और स्थानों पर 68.6% बेहतर सटीकता दर पोस्ट करता है, और संख्या, भिन्न और मुद्राओं को ट्रांसक्राइब करने में 55.6% अधिक तेज है। इसके अलावा, यह पृष्ठभूमि शोर और ओवरलैपिंग स्पीकर्स के कारण होने वाले AI हैलूसिनेशन के प्रति 36.5% अधिक प्रतिरोध का दावा करता है, साथ ही स्वास्थ्य सेवा, कानून, दूरसंचार और वित्त जैसे विशेष क्षेत्रों में 46.7% प्रदर्शन वृद्धि के साथ।
प्रभावशाली बेंचमार्क से परे, Sahara-v2 वास्तविक दुनिया की एंटरप्राइज़ तैनाती के लिए डिज़ाइन किया गया एक गंभीर उत्पादकता इंजन है। मजबूत API द्वारा समर्थित जिन्हें केवल पांच मिनट में तैनात किया जा सकता है, यह बुनियादी ढांचा पहले से ही वॉयस बैंकिंग, स्वचालित KYC प्रक्रियाओं और स्वास्थ्य डेटा से लेकर खाता खोलने के फॉर्म तक सब कुछ के लिए ऑटोफिल सिस्टम को सक्रिय रूप से संचालित कर रहा है। प्रारंभिक एंटरप्राइज़ अपनाने वाले रिपोर्ट करते हैं कि तकनीक प्रशासनिक प्रसंस्करण समय को 4.4 गुना तक कम कर रही है।
महाद्वीप की अनूठी भाषाई वास्तविकताओं को संबोधित करने के लिए, Intron ने अत्यधिक विशिष्ट क्षेत्रीय सुविधाएं शुरू की हैं। केन्या के Penda Health के सहयोग से, उन्होंने दुनिया का पहला द्विभाषी स्वाहिली-अंग्रेजी ऑटोमैटिक स्पीच रिकग्निशन (ASR) मॉडल पेश किया, जो पूरी तरह से कैप्चर करता है कि लोग स्वाभाविक रूप से वाक्य के बीच में भाषाओं के बीच कैसे फ्लिप करते हैं।
यहां के बाजार के लिए, उन्होंने एक मूल हौसा टेक्स्ट-टू-स्पीच (TTS) मॉडल लॉन्च किया है, जो कम-लेटेंसी, 24/7 वॉयस बॉट्स को सक्षम करता है। और डेटा गोपनीयता चिंताओं से निपटने वाली सरकारों और उद्यमों के लिए, Sahara-v2 रोलआउट में नया ऑफ़लाइन समर्थन शामिल है, जो संप्रभु AI अनुपालन के लिए डेटा को सुरक्षित और स्थानीय बने रहने की अनुमति देता है।
Intron's Sahara-v2
छह देशों में एंटरप्राइज़ और सरकारी क्लाइंट पहले से ही सिस्टम का उपयोग कर रहे हैं। ARM Investments में डेटा और इनसाइट्स के प्रमुख Ayo Oluleye ने नोट किया, "Intron AI मॉडल का उपयोग करते हुए, हमने पहले खोजे गए मॉडल की तुलना में ट्रांसक्रिप्शन और सारांश में महत्वपूर्ण सुधार देखा है। उनके सिस्टम संदर्भ और बारीकियों को बेहतर तरीके से कैप्चर करते हैं, जिससे अधिक सटीक परिणाम मिलते हैं।" Audere में CPO Sarah Morris ने इसे दोहराते हुए 99%+ API सफलता दर और दक्षिणी अफ्रीकी उच्चारणों पर उत्कृष्ट सटीकता की रिपोर्ट की।
Sahara-v2 लॉन्च के साथ, Intron ने अपनी उद्घाटन 2026 Africa Voice AI Report भी जारी की। यह प्रकाशन पारिस्थितिकी तंत्र पर एक व्यापक, अपनी तरह का पहला नज़रिया प्रस्तुत करता है, जटिल वातावरण में वॉयस AI को तैनात करने से सीखे गए पाठों का विवरण देता है ताकि स्टार्टअप, निवेशकों और नीति निर्माताओं का मार्गदर्शन किया जा सके।
यह भी पढ़ें: Google 21 अफ्रीकी भाषाओं में AI को प्रशिक्षित करेगा, जिसमें योरूबा, हौसा और इग्बो शामिल हैं
नवीनतम भाषाओं में अफ्रीकी फ्रेंच, अफ्रीकान्स, अकान, अम्हारिक, अरबी, बेम्बा, फुलानी, गा, हौसा, इग्बो, किन्यारवांडा, लुगांडा, ओरोमो, पेडी और पिजिन शामिल हैं। अन्य हैं सेसोथो, शोना, स्वाहिली, त्स्वाना, ट्वी, वोलोफ, खोसा, योरूबा और ज़ुलु। इन जोड़ों के साथ, डिजिटल दुनिया का दरवाजा आखिरकार चौड़ा खुल रहा है।
जैसा कि Intron के CEO Tobi Olatunji ने कहा, "Sahara-v2 साबित करता है कि जब तकनीक गहरी सांस्कृतिक और भाषाई समझ के साथ बनाई जाती है, तो अद्भुत चीजें हो सकती हैं, और हम बस शुरुआत कर रहे हैं।"
पोस्ट Intron ने Sahara-v2 लॉन्च किया, एक वॉयस AI मॉडल जो 24 नई अफ्रीकी भाषाओं का समर्थन करता है पहली बार Technext पर दिखाई दी।


