谷歌新神经机器翻译系统可实现“零数据翻译”
- 来源:虎嗅网
- 编辑:沐子飞
- 2016/11/25 10:08:48
- 32855
谷歌新神经机器翻译系统 可实现“零数据翻译”
过去10年中,谷歌翻译已从仅支持几种语言发展到了支持103种,每天翻译超过了1400亿字。为了实现这一点,我们需要构建和维护许多不同的系统,以便在任何两种语言之间进行转换,由此产生了巨大的计算成本。
神经网络改革了许多领域,我们确信可以进一步提高翻译质量,但这样做意味着重新思考谷歌翻译背后的技术。
今年 9 月,谷歌翻译改为启用谷歌神经机器翻译(GNMT)的新系统,这是一个端到端的学习框架,可以从数百万个示例中学习,并在翻译质量方面有显著提升。
不过,虽然启用GNMT的几种语言翻译质量得到了提升,但将其扩展到所有 103 种谷歌翻译支持的语种,却是一个重大的挑战。
实现零数据翻译(Zero-Shot Translation)
在论文《谷歌多语言神经机器翻译系统:实现零数据翻译》(Google s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation)中,我们通过扩展以前的 GNMT系统解决这一挑战,使单个系统能够在多种语言之间进行翻译。
我们提出的架构不需要改变基本的 GNMT 系统,而是在输入句子的开头使用附加的“token”,指定系统将要翻译的目标语言。 除了提高翻译质量,我们的方法还实现了“Zero-Shot Translation”,也即在没有先验数据的情况下,让系统对从未见过的语言进行翻译。
下图展示了新 GNMT 的工作原理。假设我们使用日语和英语以及韩语和英语之间相互翻译为例,训练一个多语言系统,如动画中蓝色实线所示。
这个新的多语言系统与单个 GNMT 系统大小一样,参数也一样,能够在日英和韩英这两组语言对中进行双语翻译。参数共享使系统能够将“翻译知识”(translation knowledge)从一个语言对迁移到其他语言对。这种迁移学习和在多种语言之间进行翻译的需要,迫使系统更好地利用其建模能力。
由此,我们想到:能够让系统在从未见过的语言对之间进行翻译吗?例如韩语和日语之间的翻译,系统并没有接受过日韩之间翻译的训练。
版权与免责声明:凡本网注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本网授权不
展开全部
热门评论