Google 与非洲研究机构联盟推出了 WAXAL 数据集,这是一项重大新举措,旨在… 帖子 Google 将用 21 种非洲语言训练 AIGoogle 与非洲研究机构联盟推出了 WAXAL 数据集,这是一项重大新举措,旨在… 帖子 Google 将用 21 种非洲语言训练 AI

Google将训练AI学习21种非洲语言,包括约鲁巴语、豪萨语和伊博语

Google 与非洲研究机构联盟推出了 WAXAL 数据集,这是一项重大的新举措,旨在纠正人工智能 (AI) 在非洲大陆面临的主要挑战之一,即无法解释和理解大多数非洲语言。

该项目提供了一个涵盖 21 种撒哈拉以南非洲语言的大型开放语音数据集,并将语音技术带给超过 1 亿被排除在 AI 经济之外的人们。

WAXAL 数据集是由 Google 资助、当地大学和社区团体主导的三年合作成果。

它包含 1,250 小时的转录自然语音和超过 20 小时的录音室级别录音,旨在构建高保真合成语音。它针对的语言包括豪萨语、约鲁巴语、卢干达语、伊博语和阿乔利语等,其中许多语言有数千万人使用,但在商业语音系统中基本上处于隐形状态。

Google 与非洲大学推出 WAXAL 数据集,以 21 种非洲语言训练 AI,包括约鲁巴语、豪萨语和伊博语

尽管大家都在谈论全球 AI,但语音技术仍然严重偏向英语以及少数几种欧洲和亚洲语言。拥有超过 2,000 种语言的非洲一直被边缘化。

这种差距不仅仅是学术问题;它决定了谁能使用数字服务、谁能获得教育和医疗工具,以及谁能在现代 AI 平台上建立公司。Google 将这项工作定位为缩小长期数据差距的一步,这种差距使许多非洲语言无法应用于语音助手和其他工具。

为什么 WAXAL 数据集对非洲的 AI 架构很重要

除了直接解决这种不平衡之外,该项目本身与数据一样重要。

与早期非洲语音数据被提取并归其他地方所有的举措不同,WAXAL 由非洲机构在当地主导。乌干达的马凯雷雷大学、加纳大学和卢旺达的 Digital Umuganda 在 Google Research Africa 的技术支持下,监督数据收集、社区参与和语言管理工作。

至关重要的是,这些机构保留了数据的所有权。这是一个显著的转变,因为该领域经常因在开放的旗号下复制掠夺性动态而受到批评。

据 Google Research Africa 负责人 Aisha Walcott-Bryant 表示:"WAXAL 的最终影响是赋予非洲人民权力。这个数据集为学生、研究人员和企业家提供了重要基础,让他们能够按照自己的方式、用自己的语言构建技术,最终惠及超过 1 亿人。"

"我们期待看到非洲创新者使用这些数据创造一切,从新的教育工具到支持语音的服务,为整个非洲大陆创造切实的经济机会",她补充道。

Google 与非洲大学推出 WAXAL 数据集,以 21 种非洲语言训练 AI,包括约鲁巴语、豪萨语和伊博语Aisha Walcott-Bryant,Google Research Africa 负责人

参与的大学也呼应了这一观点。马凯雷雷大学高级讲师 Joyce Nakatumba-Nabende 表示:

"要让 AI 在非洲产生真正的影响,它必须说我们的语言并理解我们的背景。WAXAL 数据集为我们的研究人员提供了构建反映我们独特社区的语音技术所需的高质量数据。在乌干达,它已经加强了我们当地的研究能力,并支持了由学生和教师主导的新项目。"

在加纳大学,副教授 Isaac Wiafe 指出了公众参与的规模:

"对于加纳大学来说,WAXAL 的影响超越了数据本身。它使我们能够构建自己的语言资源并培训新一代 AI 研究人员。超过 7,000 名志愿者加入我们,因为他们希望自己的声音和语言能够属于数字未来。今天,这种集体努力在健康、教育和农业等领域激发了创新生态系统。这证明了当数据存在时,可能性就会无处不在地扩展。"

有理由保持谨慎乐观。开放的语音数据集可以降低缺乏大规模数据收集资源的本地初创公司和研究人员的门槛。它们还可以减少对很少或根本不支持非洲语言的外国 API 的依赖。

Google 与非洲大学推出 WAXAL 数据集,以 21 种非洲语言训练 AI,包括约鲁巴语、豪萨语和伊博语WAXAL 数据集

然而,数据集并不能保证结果;构建可靠的语音系统需要持续投资、本地部署以及将价值保留在国内的商业途径。Google 作为资助者和召集者的角色将受到审查,特别是关于 WAXAL 数据未来如何被全球公司使用。

目前,WAXAL 数据集的发布标志着向更具语言包容性的 AI 生态系统迈出了具体的一步。它并没有解决非洲的 AI 挑战,但它解决了一个基础性问题。语音通常是与技术最自然的交互界面。确保 AI 能够听到非洲以其所有多样性说话,早就应该实现了。

这篇文章"Google 以 21 种非洲语言训练 AI,包括约鲁巴语、豪萨语和伊博语"首次发表于 Technext。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。