Google正在推广WAXAL,这是一个来自Google Research Africa的开源语音数据集,涵盖多种非洲本土语言Google正在推广WAXAL,这是一个来自Google Research Africa的开源语音数据集,涵盖多种非洲本土语言

谷歌如何教导AI学习非洲2,000种语言

2026/02/12 21:33
阅读时长 19 分钟

当Google Research(Google旗下致力于推进计算机科学最新技术并将这些突破应用于现实问题的部门)项目经理Abdoulaye Diack谈及Google Research Africa开源语音数据集WAXAL的起源时,他从一个单词开始讲起。 

"WAXAL意思是'说话',"他告诉TechCabal,并指出这个词源于沃洛夫语,这是塞内冈比亚地区广泛使用的语言。 

这个名字由Google的塞内加尔研究负责人Moustaph Cisse于2020年选定,反映了非洲人工智能发展轨迹的一个更大真相:在这个拥有超过2,000种语言的大陆上,大多数语言是口语而非书面语,语音不是可选项;它是切入点。

多年来,数字技术一直围绕读写能力、键盘和文本展开。但在非洲,语言存在于对话中,遍布市场、农场、诊所和家庭。无法解析口音、语调或语码转换的人工智能无法真正服务大多数非洲人。WAXAL旨在改变这一现状。该项目不是单纯专注于文本翻译,而是为资源匮乏的非洲语言创建语音转语音人工智能的基础设施,核心是建立一个庞大、高质量的语言"原材料"中心。

"拥有能用我们的语言与我们交谈并理解我们的人工智能,无论是我们的口音还是语调,实际上都非常重要,"Diack说。

数据劣势

挑战始于明显的不平衡。超过50%的网站使用英语和少数西方语言。非洲2,000多种语言在全球数字数据集中几乎不存在。大多数在网上代表性不足。许多没有广泛的书面形式。有些根本没有标准化。

如果人工智能模型基于数字文本训练,而非洲语言几乎没有数字文本,那么该大陆在人工智能竞赛中从结构上就处于劣势。

"这不是一个新问题,"Diack说。"研究人员都意识到数据缺乏造成的巨大差距。"

没有数据,模型无法训练。没有训练好的模型,人工智能系统会误听、误译或忽略整个群体。Diack讲述了一个常见的困扰:用法语区非洲口音说话时,人工智能笔记系统难以理解他。技术是存在的,但没有针对本地环境进行调整。

这就是WAXAL想要弥合的差距。

建立语音基础

经过三年开发后于2026年2月正式推出,WAXAL制作了迄今为止最大的非洲语言语音数据集之一:来自近200万个独立录音的超过11,000小时录音语音,涵盖21种撒哈拉以南非洲语言,包括豪萨语、约鲁巴语、卢干达语和阿乔利语。

除了一般语音收集外,Google表示已投入超过20小时的高质量录音棚录音,为语音助手开发自然发音的合成语音。这些"录音棚高级"录音旨在使人工智能回复听起来不那么机械化,更具文化真实性。

Google将该计划构建为合作模式。乌干达的马凯雷雷大学和加纳大学等大学主导了大部分数据收集工作。本地合作伙伴保留数据集的所有权,这些数据集已作为开源发布,采用允许商业使用的许可证。

"我们主要提供指导和资金,"Diack解释道。"所有这些数据集不属于我们。它属于与我们合作的伙伴。"

其雄心不仅仅是为Google自己的产品提供支持,而是培育一个生态系统。

据Diack称,发布后几天内,该数据集录得超过4,000次下载,这是研究人员和开发者采用的早期迹象

语音为何重要 

Google已经提供多种语言的翻译工具。那为什么要从头开始?

因为翻译不是语音。

传统机器翻译依赖"平行文本",即用一种语言写成的句子与另一种语言中的对应句子对齐。对于资源匮乏的语言,这样的平行语料库几乎不存在。即使翻译有效,它也无法解决更深层的问题:许多非洲人主要通过语音与技术互动。

"大陆上很多人实际上不知道如何读写,"Diack说。"语音基本上是通往技术的门户。"

想象一下卡杜纳的农民用豪萨语询问天气预报。或者加纳农村村庄的母亲用当地语言寻求营养建议。基于文本的系统假设识字和标准化拼写。语音系统必须处理方言、俚语、语码转换和非典型语音模式。

在加纳,语音识别项目UGSpeechData计划制作了超过5,000小时的音频数据。该计划后来促成了使用当地语言运作的孕产妇健康聊天机器人的开发。它还扩展到非典型语音工作,帮助聋人和中风幸存者社区,他们的语音模式经常使主流人工智能系统感到困惑。

"人工智能系统没有适应这种情况,"Diack说。"如果你有不同类型的语音,系统很可能无法理解你。"

竞争激烈的领域

Google在这场竞赛中并不孤单。

Masakhane是一个草根开源研究组织,已经建立了覆盖45种以上非洲语言的翻译系统,并开发了Lulu,这是评估非洲语言模型的基准。其理念是社区优先和完全开放。

南非的Lelapa AI由前DeepMind研究人员创立,专注于为非洲企业提供商业自然语言处理(NLP)产品。其旗舰模型Vulavula捕捉祖鲁语、塞索托语和南非荷兰语的方言和城市语码转换模式。Lelapa强调"真实数据"数据集和大量人工错误分析,这是一种成本高昂但高保真度的方法。

埃塞俄比亚的Lesan AI使用人在回路模型为阿姆哈拉语、提格雷尼亚语和奥罗莫语建立了一些最准确的翻译系统,以确保文化细微差别。

Meta的"不让任何语言掉队"(NLLB-200)项目采取大规模方法,使用零样本学习翻译200种语言,包括55种非洲语言。与此同时,Microsoft将非洲语言整合到Microsoft Translator中,并通过Gecko等项目投资多模态农业数据集。

盖茨基金会资助的非洲下一代之声计划于2025年底启动,制作了18种语言的9,000小时语音数据。

生态系统是多样化的:开源组织、商业初创公司、大型科技巨头、慈善资助者。每个人对问题的处理方式不同:规模与深度、文本与语音、开放与专有。

Google的特色在于其以语音为重、面向生态系统的方法。

主权与瘫痪

然而,全球科技巨头的参与不可避免地引发了关于数据主权和依赖性的问题。

如果Google协调多语言语音数据集的发布,这是否会造成对Google产品的结构性依赖?本地开发者会不会变得依赖嵌入Gemini、搜索或Android中的工具?

Diack承认这种紧张关系,但警告不要因为过于纠结而对所呈现的机会无所作为。 

"最重要的是我们不能落后,"他说。"我绝对不希望我的数据被滥用。但这是关于让企业家、初创公司和研究人员能够处理真正重要的数据。"

他将其与美国和欧洲大学与科技公司之间的合作相提并论。他认为,合作加速了能力建设。参与早期项目的研究人员已经发表论文并晋升到全球研究职位。

开放许可模式是该论点的核心。开发者可以在WAXAL数据集之上构建商业产品,而无需依赖Google的专有API。Google还发布了像Translate Gemma这样的开放权重翻译模型,可以独立下载和微调。

这种平衡是否能满足批评者还有待观察。但语言差距的规模表明,不作为可能带来更大的风险。

基础设施:无声的先决条件

语音人工智能不是孤立存在的。它需要连接性、带宽和计算基础设施。

"没有合适的基础设施,你真的无法训练人工智能模型,"Diack说。

Google已经投资海底电缆,包括在尼日利亚和其他非洲市场登陆Equiano电缆,以加强宽带弹性。近年来的光纤切断暴露了区域网络的脆弱性。冗余的高容量基础设施不仅对云服务至关重要,对本地数据中心也至关重要,这是数字主权的关键支柱。

人工智能发展依赖三个基础:人员、数据和基础设施。非洲年轻的人口预计将在未来几十年占全球人工智能用户的很大份额,提供了人口优势。但如果不投资研究能力和数字基础设施,人口潜力将无法转化为技术领导力。

协调挑战

为了避免碎片化,Google已经从孤立的大学合作转向更协调的合作模式。其中一项工作涉及与Masakhane的语言中心和其他志愿者网络合作,使研究人员和初创公司能够申请资金并为共享数据集做出贡献。

"如果我们在整个大陆上各做各的,那是没有效率的,"Diack说。"我们需要协同努力。"

到目前为止,WAXAL已覆盖27种语言,包括四种尼日利亚语言。一些已经覆盖的语言包括阿乔利语、阿肯语、达加雷语、达格巴尼语、德霍卢奥语、埃维语、芳蒂语、富拉尼语(富拉语)、豪萨语、伊博语、伊克波索语(克波索语)、基库尤语、林加拉语、卢干达语、马达加斯加语、马萨巴语、尼扬科莱语、卢基加语、绍纳语、索加语(卢索加语)、斯瓦希里语和约鲁巴语。 

解决所有2,000多种非洲语言的雄心是理想化的,也许需要几代人的努力。

"那是我的梦想,"Diack说。

但优先顺序很重要。他指出教育、农业和健康是语音人工智能可以产生可衡量影响的关键领域,这些影响与可持续发展目标保持一致。

通过非洲研究计划改进并整合到Google搜索中的天气预报已经展示了全球溢出效应。像PlantVillage Nuru这样的木薯病害检测项目通过宾夕法尼亚州立大学、国际热带农业研究所(IITA)和国际农业研究磋商组织(CGIAR)之间的合作开发,已经影响了非洲以外的农业人工智能。这些先例表明,为非洲建立的解决方案可以在全球范围内扩展。

本土优先人工智能的成本

在资源匮乏的环境中收集语音数据成本高昂。现场录音、转录、语言验证和录音棚质量的语音合成需要持续的资金支持。

Google的投资是更广泛的行业转变的一部分,从抓取现有文本转向投资原始语音数据。Lelapa AI的人在回路验证模型强调了准确性的成本。Meta的FLORES-200数据集依赖专业翻译人员。Microsoft的农业语音计划涉及数千个带注释的视频。

质量很重要。合成语音必须听起来自然。识别系统必须处理语码转换。城市语音通常在同一句话中混合英语、本地语言和俚语。

非洲人工智能不能仅通过自动化建立;它需要文化和语言专业知识。

对于Diack来说,成功不仅仅通过产品整合来衡量。

"我想看到初创公司利用数据集提供本地语言服务,"他说。"我想看到研究人员基于我们的语言而不仅仅是英语撰写论文。"

然而,最终Google正在建造的大门必须通向某个具体的地方。这包括Google产品;搜索、Gemini、语音助手,能够流利地使用约鲁巴语、沃洛夫语、豪萨语或卢干达语进行交互。但它也包括独立的初创公司建立金融科技工具、健康聊天机器人或农业咨询系统。

如果说有什么的话,非洲的人工智能未来取决于语音是否成为一种均衡力量或另一个错失的机会。如果语音仍然不被全球系统识别,那么整个大陆每天说出的数十亿字将在数字世界中保持隐形。

市场机遇
native coin 图标
native coin实时价格 (NATIVE)
$0.00001714
$0.00001714$0.00001714
0.00%
USD
native coin (NATIVE) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。