Common Voice：用多语言数据打造包容性AI语音|AI_新浪科技

来源：DeepTech深科技

来源：MIT Technology Review

我们正处于语音 AI 爆发的边缘，苹果、OpenAI 等科技公司正推出新一代人工智能助手。然而，这些助手的默认语音通常是白人美国口音——如果幸运，可能是英国口音——并且一定是英语。这些语音只代表英语中极小的一部分方言和口音，而英语覆盖的区域和文化非常广泛。如果你是全球数十亿不讲英语的人之一，那就运气不好了：这些工具在其他语言中的表现远不如英语。

这是因为用来训练这些模型的数据非常有限。在 AI 研究中，大多数训练数据都来自英语互联网，反映的是英美文化。然而，目前有一项庞大的基层努力试图改变这一现状，为 AI 语音带来更多透明性和多样性：Mozilla 发起的 Common Voice 项目。

过去七年中，Common Voice 创建的数据集已成为构建语音 AI 最有用的资源之一。随着当前 AI 的快速发展，该数据集的下载量大幅增长，从 2020 年的 38,500 次跃升至最近的 500 万次。数据集的创建并不容易，主要依赖于大量志愿者的贡献。志愿者人数也从 2020 年的不足 50 万人增长到 2024 年的超过 90 万人。然而，一些社区成员认为，通过免费开放数据，Mozilla 实际上是在鼓励志愿者为大型科技公司免费劳动。

自 2017 年以来，Common Voice 项目的志愿者共收集了 31,000 小时的语音数据，涵盖约 180 种语言，包括俄语、加泰罗尼亚语和马拉地语。如果你使用过基于音频 AI 的服务，很可能至少部分训练数据来自 Common Voice。

Mozilla 的目标是高尚的。随着 AI 越来越多地融入我们的生活以及沟通方式，让我们所使用的工具听起来像我们自己变得尤为重要。这项技术可能打破沟通障碍，向无法阅读的人群传递信息。然而，过于关注英语的风险在于巩固一种新的殖民世界秩序，并可能导致一些语言的完全消失。

“如果最终我们不是创造出真正的多模态、多语言、高性能翻译模型，而是迫使所有人都用英语或法语交流，那将是一个巨大的失败，”Common Voice 项目主管 EM Lewis-Jong 说。

Common Voice 是开源的，任何人都可以查看数据集的内容，并免费将其用于任何用途。这种透明度在 AI 数据治理中十分罕见。根据华盛顿大学、卡内基梅隆大学和西北大学的一项研究，大多数大型音频数据集并未公开，许多数据来自对 YouTube 等网站的抓取。

绝大多数语言数据是由志愿者收集的，例如来自土耳其的研究员 Bülent Özden。自 2020 年以来，他不仅捐赠自己的语音，还通过提高公众意识吸引更多人参与。他最近花了两个月全职纠正土耳其语数据中的错误和拼写问题。对于他来说，改善 AI 模型并不是唯一的动机。

“我这么做是为了保护文化，特别是低资源语言的文化，”Özden 说。他最近开始收集土耳其一些小语种的样本，例如切尔克斯语和扎扎语。

然而，我在深入研究数据集时注意到，语言和口音的覆盖范围非常不均衡。比如，芬兰语仅有 231 人贡献的 22 小时语音，而英语则有 94,665 名说话者提供的 3,554 小时语音。一些语言（如韩语和旁遮普语）的表现更差，尽管它们有数千万使用者，却只录制了几个小时的数据。

这种不平衡的原因在于数据收集工作是由语言社区自下而上发起的，Lewis-Jong 解释道。

“我们试图为社区提供创建自己 AI 训练数据集所需的工具。我们特别关注那些缺乏数据的语言社区，或者那些可能不被大型科技公司重视的语言，”Lewis-Jong 说。他们希望借助志愿者和各种资助，到今年年底将 Common Voice 的数据集扩展到接近 200 种语言。

Common Voice 的宽松许可政策使得许多公司依赖它。例如，瑞典初创公司 Mabel AI 利用它为医疗提供者构建翻译工具。公司首选的语言之一是乌克兰语，开发了一款帮助乌克兰难民与瑞典社会服务互动的翻译工具，Mabel AI 的创始人兼 CEO Karolina Sjöberg 说。团队随后扩展到其他语言，例如阿拉伯语和俄语。

很多其他音频数据的问题在于，它们大多是人们从书籍或文本中朗读出来的。这与人们在实际交流中，尤其是在感到痛苦或压力时的语音表现有很大不同，Sjöberg 表示。由于 Common Voice 允许任何人提交句子供他人朗读，Mozilla 的数据集中也包含了一些更口语化、更自然的句子。

然而，它并不完全具有代表性。Mabel AI 团队很快发现，大多数他们需要的语音数据是由年轻男性捐赠的，这在数据集中非常典型。

“我们打算与之合作的难民几乎完全不是年轻男性，”Sjöberg 说。“这意味着我们需要的语音数据并不完全符合我们已有的语音数据。”团队开始从乌克兰女性和老年人中收集语音数据。

与其他数据集不同，Common Voice 要求参与者分享性别和口音等详细信息。确保不同性别的代表性对于减少 AI 模型中的偏见至关重要，Common Voice 性别行动计划的创建者 Rebecca Ryakitimbo 表示。更多的多样性不仅带来更好的代表性，也能带来更优质的模型。狭窄和同质化的数据训练的系统往往会产生刻板印象和有害的结果。

“我们不希望出现这样的情况：一个以女性命名的聊天机器人，对女性的回应与对男性的回应不同，”她说。

Ryakitimbo 在坦桑尼亚、肯尼亚和刚果民主共和国收集了斯瓦希里语的语音数据。她表示，她希望从社会经济多样化的斯瓦希里语人群中收集语音，包括年轻和年长的女性，特别是那些可能不识字或没有设备的农村居民。

这种数据收集工作具有挑战性。对于许多人来说，收集 AI 语音数据的重要性显得很抽象，尤其是当他们不熟悉这些技术时。Ryakitimbo 和志愿者通常在一些让女性感到安全的环境中开始，例如关于月经卫生的宣讲活动，并解释这项技术如何帮助传播有关月经的信息。对于不识字的女性，团队会朗读句子让她们重复录音。

Common Voice 项目的信念是，语言是身份的重要组成部分。“我们认为，这不仅关乎语言，也关乎传承文化和遗产，以及珍视人们的特定文化背景，”Lewis-Jong 说。“有很多习语和文化口号是无法翻译的，”他们补充道。

Common Voice 是唯一一个英语不是主导的数据集，卡内基梅隆大学研究员Willie Agnew 表示。他曾研究过多个音频数据集。“我对他们的成果印象深刻，他们确实创建了一个非常多样化的数据集，”Agnew 说。“相较于我们研究的其他项目，他们已经遥遥领先。”

我花了一些时间在 Common Voice 平台上验证其他芬兰语使用者的录音。当他们的声音在我的书房中回响时，我感到意外的感动。我们都为了同一个目标聚集在一起：让 AI 数据更加包容，并确保我们的文化和语言在下一代 AI 工具中得到充分的体现。

然而，我对捐赠自己的声音后将发生什么仍有许多疑问。一旦进入数据集，我将无法控制这些数据未来的用途。科技行业并不以给予贡献者应有的认可而闻名，而且这些数据对任何人都是开放使用的。

“尽管我们希望这些数据能惠及当地社区，但也有可能大型科技公司利用这些数据开发出商业产品，”Ryakitimbo 说。虽然 Mozilla不公开 Common Voice 数据的下载者，但 Lewis-Jong 告诉我，Meta 和 Nvidia 曾表示他们使用过这些数据。

开放访问这些来之不易的少数语言数据并不是所有群体都希望看到的，卡内基梅隆大学的研究员 Harry H. Jiang 表示。他参与了一项数据审核研究。他提到，例如一些原住民群体就表达了担忧。

过去 18 个月中，Mozilla 一直在考虑“资源剥夺”问题，Lewis-Jong 表示。今年晚些时候，该项目将与社区合作试行包括 Nwulite Obodo 开放数据许可在内的替代性许可模式。这种模式由比勒陀利亚大学的研究人员开发，用于更公平地分享非洲数据集。例如，数据下载者可能需要提交使用计划的详细信息，并可能仅限于特定产品或有限时间内的许可使用。用户可能还需要为支持减贫的社区项目做出贡献，Lewis-Jong 补充道。

Lewis-Jong 表示，这项试点是一次学习探索，目的是了解社区是否需要带有替代许可的数据，以及这些许可是否可持续。他们希望这一尝试能带来类似“开源 2.0”的模式。

最终，我决定捐赠我的声音。我收到了一系列要朗读的短语，坐在电脑前按下了录音按钮。我希望有一天，我的努力能帮助某家公司或研究者开发出更具个性化的语音 AI，而不是千篇一律的声音。

原文链接：

https://www.technologyreview.com/2024/11/15/1106935/how-this-grassroots-effort-could-make-ai-voices-more-diverse/