Intron,一家总部位于拉各斯的人工智能初创公司正式推出 Sahara-v2,这是其旗舰第二代语音人工智能模型,有效地提高了全球语音识别的标准。该模型支持24种新的非洲语言,并掌握超过500种不同的非洲英语口音,使该公司的语言覆盖总数达到前所未有的57种。
多年来,与 Siri、Alexa 等全球语音助手或标准文本转语音引擎互动,感觉就像在对着一堵根本不会说你语言的墙说话。我们都有过这样的经历,尝试使用语音指令,结果像"No worry, e go better"这样的本地化短语被转录成毫无意义的"No war eagle butter"。一开始觉得很好笑,但当"Wanjiru"被数字化为"One zero",而"Chukwuebuka"莫名其妙地变成"Check wheelchair baker"时,笑话很快就消失了。
这些重复的转录失败不仅仅是技术失误;它们是一种主动的数字排斥形式。主要建立在西方数据集上的全球领先人工智能模型在这里完全偏离了目标。它们无法适应我们语音的音调丰富性,一个单词根据发音可能有六种不同的含义。它们在我们自然的节奏代码切换上磕磕绊绊,无法理解一个办公室可能雇用拥有十种完全不同口音的员工。当语音助手误解基本单词和名字时,它们将数百万用户拒之于使现代生活更轻松的数字捷径之外。
Intron
Sahara-v2 弥补了这一关键差距,因为它不是建立在假设上,也不是在安静、无菌的工作室中训练的。Intron 通过走上街头倾听来构建这个模型。数据集庞大且高度本地化:超过1,400万个音频片段,总计超过50,000小时的语音,来自超过40,000名说话者。这些声音代表了30多个国家的64种非洲和侨民语言。至关重要的是,它们是在人工智能实际需要运作的地方录制的,在拥挤的诊所、嘈杂的市场、繁忙的呼叫中心和法庭。
这种自下而上的现实世界方法使 Sahara-v2 能够超越全球科技界的巨头。当与 Gemini-3、GPT-4、Whisper、ElevenLabs、AWS 和 Azure 等行业重量级产品进行基准测试时,Intron 的模型提供了压倒性的领先优势。
它在非洲名字、组织和地点方面的准确率提高了68.6%,在转录数字、分数和货币方面的准确度提高了55.6%。此外,它对背景噪音和重叠说话者引起的人工智能幻觉的抵抗力提高了36.5%,同时在医疗保健、法律、电信和金融等专业垂直领域的性能提升了46.7%。
除了令人印象深刻的基准测试外,Sahara-v2 是一个为现实世界企业部署而设计的严肃生产力引擎。在强大的 API 支持下,可以在短短五分钟内部署,该基础设施已经积极为语音银行、自动化 KYC 流程和自动填充系统提供动力,涵盖从健康数据到开户表格的所有内容。早期企业采用者报告称,该技术将行政处理时间缩短了多达4.4倍。
为了解决非洲大陆独特的语言现实,Intron 推出了高度专业化的区域功能。与肯尼亚的 Penda Health 合作,他们推出了世界上第一个双语斯瓦希里语-英语自动语音识别(ASR)模型,完美捕捉人们在句子中间自然切换语言的方式。
对于这里的市场,他们推出了原生豪萨语文本转语音(TTS)模型,实现了低延迟、全天候语音机器人。对于应对数据隐私问题的政府和企业,Sahara-v2 的推出包括新的离线支持,允许数据保持安全和本地化以符合主权人工智能合规性。
Intron 的 Sahara-v2
六个国家的企业和政府客户已经在使用该系统。ARM Investments 的数据与洞察主管 Ayo Oluleye 指出:"使用 Intron 人工智能模型,与我们之前探索的模型相比,我们在转录和摘要方面看到了显着改进。他们的系统能更好地捕捉上下文和细微差别,从而产生更准确的结果。" Audere 的首席产品官 Sarah Morris 也表示赞同,报告 API 成功率超过99%,并且在南部非洲口音方面具有出色的准确性。
随着 Sahara-v2 的推出,Intron 还发布了其首份2026年非洲语音人工智能报告。该出版物提供了对生态系统的全面、首创的观察,详细介绍了在复杂环境中部署语音人工智能的经验教训,以指导初创公司、投资者和政策制定者。
另请阅读:Google 将以21种非洲语言训练人工智能,包括约鲁巴语、豪萨语和伊博语
最新的语言包括非洲法语、南非荷兰语、阿肯语、阿姆哈拉语、阿拉伯语、本巴语、富拉尼语、加语、豪萨语、伊博语、卢旺达语、卢干达语、奥罗莫语、佩迪语和皮钦语。其他语言包括塞索托语、绍纳语、斯瓦希里语、茨瓦纳语、契维语、沃洛夫语、科萨语、约鲁巴语和祖鲁语。随着这些新增语言,通往数字世界的大门终于敞开了。
正如 Intron 首席执行官 Tobi Olatunji 所说:"Sahara-v2 证明,当技术建立在深厚的文化和语言理解之上时,奇妙的事情就会发生,而我们才刚刚开始。"
这篇文章 Intron 推出 Sahara-v2,一个支持24种新非洲语言的语音人工智能模型 首次出现在 Technext。


