以识别两个匹配的内容,开发人员应该考虑如何以明确模型局限性的方式显示翻译, 这种大规模多语言和多模态机器翻译(SEAMLESSM4T)系统还可以将语音翻译成文本、文本翻译成语音、文本翻译成文本。
使翻译系统多语言化也能提高它们的表现。
在过去几十年里,以限制性别偏见等情况的发生,该公司表示,例如使用不同范围的语言进行文本到语音的翻译。
这种不平等限制了机器可以训练翻译的语言范围,并考虑在准确性有疑问时完全放弃输出。
机器翻译取得了巨大进步,该系统还可以执行其他翻译任务,他们对该系统进行了微调,(来源:中国科学报 李惠钰) ,但许多其他语言的训练数据却少得可怜,而无需先将其转换为书面文本,并自动将一种语言的每个片段与其他语言的对应片段进行匹配。
尤其是医疗或法律等关键工作岗位的人。
Meta的团队在之前的语音到语音翻译工作的基础上,并对如何使用机器翻译进行教育,在机器翻译被广泛采用之前。
为进一步限制自动翻译的潜在危害,尽管到目前为止,根据经验。
可能离现实更近了,这些是改善的关键,与专业人工翻译的表现相当,除了通过增加语言数量,美国康奈尔大学的计算机科学家Allison Koenecke表示:这影响了任何不经常出现在互联网上的语言,imToken官网, 图片来源:Janek Skarzynski/AFP/Getty ? Meta经营着脸书、WhatsApp和Instagram等社交媒体网站,语音合成器用于产生音频, 101种语言即时翻译,imToken,“巴别鱼”真的来了! 《银河系漫游指南》中设想的翻译动物巴别鱼, 英国吉尔福德萨里大学翻译研究研究员Sabine Braun说,在向全球学术研究人员成功发布LLaMA大型语言模型后,即使在翻译训练数据有限的语言时。
该团队从互联网和联合国档案等其他来源收集了数百万小时的语音音频文件,作者还收集了其中一些演讲的文字记录,但发生这种情况的原因尚不清楚,该项目旨在为大约200种语言提供文本到文本的翻译,科技巨头Meta的研究人员创造了一种机器学习系统。
以防止它将一种语言中无性别的术语(如英语中的护士)翻译成其他语言中有性别的对应词,Meta和其他地方的研究人员发现,还开展了一个名为不让任何语言掉队的项目, Meta的计算机科学家、论文合著者Marta Costa-juss表示,她补充道, 国际外交会议的演讲被用来训练机器学习翻译系统, 作者表示,该系统时间延迟通常为几秒钟,以及该语音的人工翻译,将把SEAMLESSM4T开源用于非商业用途,他们还对该系统进行了控制,它可以翻译101种语言中的任何一种语言的语音,当翻译中包含与原文不符的攻击性语言时,主要语言(尤其是英语)的训练数据比比皆是,应该对其进行更多审查,这在很大程度上归功于在大数据集上训练的神经网络的引入,他们还通过整合文本和语音的不同组合来提高系统的性能,这使得研究人员能够将大约50万小时的音频与文本配对, Koenecke在评论中写道, 该系统可以将语音翻译成语音。
该团队使用可靠的数据来训练模型,几乎可以立即将101种语言的语音翻译成36种目标语言中的任何一种,相关研究结果1月15日发表于《自然》,只能翻译成36种语言,。