在 Meta 公司 CEO 马克・扎克伯格口中“全世界最快的超级计算机之一”的支持下,该公司的最新人工智能模型如今能够翻译 200 种不同的语言,包括许多缺少资源、不受目前翻译系统支持的语种。
该公司将此次项目命名为“不落下一门语言”(No Language Left Behind),力争每天能在 Meta 公司的 App 之间实现至少 250 亿次翻译。
虽然如今全球已有超过 7100 种已知语言,但其中许多都缺少足够的数据集,无法对人工智能开展训练。这些所谓的低资源语言包括埃及阿拉伯语、巴厘语、撒丁语、尼日利亚富拉语、班诗兰语、姆班杜语等等。这些语言的使用者不少,但在互联网上为数不多。
“我们所用的人工智能模型技术正在帮助这些由全球数十亿人使用的语言实现高质量翻译。”Meta 公司 CEO 马克・扎克伯格在 Facebook 上发表的一则声明中表示。
该公司称,该模型可以“高质量地”翻译 55 种非洲语言。
“要想感受这一项目的规模有多大,这套包含 200 种语言的模型有超过 5000 万个参数,我们用全世界最快的超级计算机之一 ——Research SuperCluster(RSC)对其展开了训练。”
“这些进展让我们的 App 每天可以进行超过 250 亿次翻译。”
“跨语言交流正是 AI 的超能力之一,但随着我们在 AI 方面不断推进,我们所做的各项工作都在随之进步,比如在 Facebook 和 Instagram 上推送最有趣的内容、推荐相关度最高的广告、以及确保所有用户的服务安全性等等。”
“这意味着,这项技术的影响将遍及全球数十亿人,让他们能够用自己的语言进行交流。” Meta AI 研究科学家玛塔・R・科斯塔尤萨在该项目宣传视频中指出。
Meta AI 用户研究员艾尔・扬布拉德也表示:“这将会改变人们生活的方式、做生意的方式、以及受教育的方式。‘不落下一门语言’项目的一切工作都以这项任务为核心,真正做到以人为本。”
为开展这一项目,这家科技巨头首先需要对以低资源语言为母语的人士开展探索性访谈,了解他们的翻译需求。接着研发出一套计算机模型,并利用针对低资源语言定制的数据挖掘技术收集的数据对模型开展了训练。
“最关键的是,我们用人工翻译的基准数据集 Flores-200 对 4 万多个翻译方向的翻译表现进行了评估。”研究团队在解释这套 AI 模型的论文摘要中指出。
研究人员还指出,该项目将涵盖更多低资源语言,从而减少数字不平等现象。
“由于‘不落下一门语言’项目以减少全球数字鸿沟为宗旨,未来将有越来越多的低资源语言被纳入项目范围中。”