元宇宙

今早-Meta发布多语言多任务模型，可转录翻译近100种语言

作者:CETCIT小编 •

2023-08-25 09:19:03

当地时间8月22日晚，Meta宣布发布人工智能模型SeamlessM4T，可以转录和翻译近100种语言。

据称，SeamlessM4T可以在文本和语音之间进行翻译。Meta还将SeamlessM4T和一个新的翻译数据集SeamlessAlign一起开源。Meta声称，SeamlessM4T在人工智能驱动的语音到语音、语音到文本领域取得了“重大突破”。

“我们的单一模型提供了即时翻译，使得说不同语言的人可以更有效地沟通，”Meta在一篇与TechCrunch分享的博客文章中写道。“SeamlessM4T可以隐式（通过两个文本片段之间的逻辑关系，如因果关系、比较关系、时序关系等，从而进行篇章结构分析和篇章内容理解）地识别源语言，而不需要单独的语言识别模型。”

SeamlessM4T建立在Meta的Massively Multilingual Speech框架之上，该框架提供了超过1100种语言的语音识别、语言识别和语音合成技术。Meta的SeamlessM4T模型能够同时处理多种语音和文本任务，包括自动语音识别、语音到文本、语音到语音、文本到语音和文本到文本等。它支持近100种语言，其中一些是语料资源较少的语言。Meta的实验表明，SeamlessM4T在不影响资源充足的语言的性能的情况下，提升了资源较少的语言的翻译质量。

Meta使用抓取的文本和语音来创建SeamlessM4T的训练数据集，称为SeamlessAlign。研究人员将44.3万小时的语音与文本对齐，并创建了2.9万小时的“语音到语音”对齐，这些对齐“教会”了SeamlessM4T如何将语音转录为文本、翻译文本、从文本生成语音，甚至将一种语言中说出的单词翻译成另一种语言中的单词。

Meta并不是唯一一个投入资源开发复杂的人工智能翻译和转录工具的公司。除了亚马逊、微软、OpenAI和许多初创公司已经提供的商业服务和开源模型之外，谷歌也在不断改进其自己的翻译服务。但是，SeamlessM4T是迄今为止将翻译和转录能力结合起来，最雄心勃勃的一个大模型。

在开发SeamlessM4T时，Meta称其从网上抓取了公开可用的文本（数量级为“数千亿”个句子）和语音（400万小时）。然而，Meta人工智能研究部门的研究科学家兼项目贡献者Juan Pino拒绝透露数据的确切来源，只是说有“各种各样”的来源。

并非所有的内容创作者都同意公司利用公开数据来训练可能用于商业目的的模型。有些人已经对一些利用公开数据构建人工智能工具的公司提起了诉讼，认为这些公司应该提供信用或补偿，以及清晰的退出方式。但是Meta声称，它所挖掘的数据（可能包含个人身份信息），不存在版权问题，其拥有许可来源或出自开源。

采写/编译：南都记者胡耕硕

web3.0教程

获取web3.0观点与资讯

查找第三代互联网(web3.0)相关文章

今早-Meta发布多语言多任务模型，可转录翻译近100种语言

web3.0教程

什么是区块链？区块链初学者指南

web3.0初学者指南-全面了解web3

什么是元宇宙？如何准确定义元宇宙？