谷歌新神经机器翻译系统可实现“零数据翻译”,神经机器翻译,谷歌,解码器-智能制造网

谷歌新神经机器翻译系统可实现“零数据翻译”

来源：虎嗅网: 编辑：沐子飞

2016/11/25 10:08:48: 32855

导读：谷歌刚刚在博客中宣布，谷歌神经机器翻译系统实现了用单一模型对多语种通用表征。系统还实现“零数据翻译”，也即能够在从来没有见过的语言之间进行翻译。

　　【中国智能制造网技术前沿】谷歌刚刚在博客中宣布，谷歌神经机器翻译系统进行了重大更新，实现了用单一模型对多语种通用表征。系统还实现“零数据翻译”，也即能够在从来没有见过的语言之间进行翻译。

　　
谷歌新神经机器翻译系统可实现“零数据翻译”

　　谷歌神经机器翻译系统可实现“零数据翻译”，这意味着传说中的“巴别塔”有望成真。而国内的那些百度、科大讯飞们又不小心被甩出了10万公里远。至少从公开的信息中是这样子的。
　　
　　过去10年中，谷歌翻译已从仅支持几种语言发展到了支持103种，每天翻译超过了1400亿字。为了实现这一点，我们需要构建和维护许多不同的系统，以便在任何两种语言之间进行转换，由此产生了巨大的计算成本。
　　
　　神经网络改革了许多领域，我们确信可以进一步提高翻译质量，但这样做意味着重新思考谷歌翻译背后的技术。
　　
　　今年 9 月，谷歌翻译改为启用谷歌神经机器翻译（GNMT）的新系统，这是一个端到端的学习框架，可以从数百万个示例中学习，并在翻译质量方面有显著提升。
　　
　　不过，虽然启用GNMT的几种语言翻译质量得到了提升，但将其扩展到所有 103 种谷歌翻译支持的语种，却是一个重大的挑战。
　　
　　实现零数据翻译（Zero-Shot Translation）
　　
　　在论文《谷歌多语言神经机器翻译系统：实现零数据翻译》（Google s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation）中，我们通过扩展以前的 GNMT系统解决这一挑战，使单个系统能够在多种语言之间进行翻译。
　　
　　我们提出的架构不需要改变基本的 GNMT 系统，而是在输入句子的开头使用附加的“token”，指定系统将要翻译的目标语言。除了提高翻译质量，我们的方法还实现了“Zero-Shot Translation”，也即在没有先验数据的情况下，让系统对从未见过的语言进行翻译。
　　
　　下图展示了新 GNMT 的工作原理。假设我们使用日语和英语以及韩语和英语之间相互翻译为例，训练一个多语言系统，如动画中蓝色实线所示。
　　
　　这个新的多语言系统与单个 GNMT 系统大小一样，参数也一样，能够在日英和韩英这两组语言对中进行双语翻译。参数共享使系统能够将“翻译知识”（translation knowledge）从一个语言对迁移到其他语言对。这种迁移学习和在多种语言之间进行翻译的需要，迫使系统更好地利用其建模能力。
　　
　　由此，我们想到：能够让系统在从未见过的语言对之间进行翻译吗？例如韩语和日语之间的翻译，系统并没有接受过日韩之间翻译的训练。
　　

资讯中心

谷歌新神经机器翻译系统可实现“零数据翻译”

热门评论

相关新闻