谷歌神经翻译引擎进步了多少？-网站资讯-蒙狼科技

美国时间9月27日，谷歌公布推出谷歌神经网络机器翻译体系(GNMT)，采用神经网络机器翻译(NMT)技术大幅提拔机器翻译的水平，《麻省理工学院技术评论》杂志MIT TR 报道称“几乎与人类无异”。

效果是让人耳目一新的。翻译界偕行Michael Zhang在其微信公众号“译言千金”做了一次谷歌翻译引擎新老版本和人工翻译的对比：下文的“GT1”代表2016年3月份GT机译效果;“GT2”代表2016年10月中旬GT机译效果。

老版本的谷歌译文是让人你认识的“机器文”：词是对的，整句必要你在脑子里调整语序后再理解。新版本的译文和人说话的语序几乎一样，和人工翻译没有大区别。

触手可及的体感转变触动了用户和媒体的心弦：它就是我们通常认为的那个会说人话的人工智能，科技的力量很推翻，至少“推翻了翻译行业”。

谷歌引擎到底提高了多少?谷歌在发表的论文中列举了几个语向的翻译错误降落率。

其中英语到西班牙语降落了87%，英文到中文降落了58%。

“错误率降落”是怎么回事?我的同事悬臂箱，商鹊网CTO魏勇鹏在接受雷锋网的记者采访时诠释了谷歌是如何做的：

比如汉译英。谷歌随机从中文维基百科遴选500个句子，让基于统计的老引擎PBMT、基于神经网络的GNMT和谙练译员各自做一次上海做网站站百度搜索排行，译文质量打分从0到6分不等，6分为满分。效果就是老引擎得分3.694，新引擎得分4.263，人工翻译得分4.636。

错误率计算体例为：

勇鹏告诉记者：“一、从3.6提拔到4.2，和从4.2提拔到4.6，这两个所必要支出的努力程度，后者可能是前者的10倍以上都不止，但Google就简单的线性计算为缩小了60%的差距。二、中英的人工翻译，得到的评分也就只是4.6，比英西的人工翻译要低得多，这点说明用来作为基准的‘人’未必是靠谱的，以它为基准来评估也未必靠谱。”

加拿大国家研究委员会NRC多语言处理研究组陈博兴研究员在他的微信同伙圈发文给了一个评价：

“谷歌所做的事情是将这两年学术界神经网络机器翻译的多种技术做了一个整合集成，行使他们壮大的工程能力和计算能力，搭了一个很好的体系。他们的单体系比我行使开源训练的体系在统一个数据集上要好了也许3个多BLEU值。【注：BLEU标准是美国商务部部属的国家标准与技术研究所NIST举办的一项机器翻译研究水平评测，其原理是比较机译效果和人译效果的相似度，完全同等得分为100(当然不同的人的翻译很难“完全同等”，所以得分100为理想值)。2008年NIST的英文-中文的机器翻译评测效果，谷歌翻译得分41.42。】3个多BLEU的差距，假如由人来判断，细心看的话，是能感觉到的，但是也就是一个小的提高，谈不上突破什么的。

“对于他们(谷歌发表)的文章，我觉得有两个遗憾的地方：1.所采用的技术都是之前发表过的，没有全新的技术(对google的要求天然要高一点，呵呵)。2. 假如我们有那么大的计算和工程能力以及那么多人力可以投入，即使只是整合已有技术，我觉得我们可以做得更好，比如我会加上清华大学刘洋他们首先采用的风险训练方法来进行训练，等等。”

陈先生提到的刘洋在接受媒体采访时淡淡地说：“谷歌做的其实是把目前学术界的一些技术集成在一路。谷歌自己的数据、运算能力，还有工程师水平都特别很是高，所以他们通过集成做了一个特别很是强的体系，这个体系和传统方法相比有比较明显的进步。但媒体的报道有点夸张，并不能说机器翻译已经接近人的水平，或者完全庖代人。谷歌这项工作还达不到 ‘推翻性突破’ 这种程度。”

专业人士的评价和通俗用户的体感不完全同等。于是懂行的故意人找出了一些风趣的谷歌翻译案例。加拿大博芬翻译公司的赵杰打算寒假回过年，在网上查询找到一家合适的酒店，各种条件都不错，但是看到价钱时含糊了，“The price is quite high”。老赵找到酒店的原版中文介绍，原文是“性价比相称高”，谷歌给的译文把意思给弄反了。

谷歌新翻译引擎在稳当处理原文译文语序的同时，出现了一些莫名其妙的题目。

引擎把“美美”翻成了“美国和美国”，而一个标点或者一个近义词的改变，会让它的译文发生很大的转变，甚者译文会意思迥异。相比之下，采用统计原理训练的有道翻译则把“我想美美地睡一觉”和“我要美美地睡一觉”给出了同样的英文译文。

“谷歌的新引擎的错误无法追溯。”中科院主动化所的张家俊副研究员说，多层神经网络的算法模型的计算过程是一个黑盒子，人无法理解息争释程序主动学习的过程。“谷歌的新引擎在语言流利性有大幅度进步，但是在原文忠诚度上没有显明转变。”张家俊说。

普通化的话来讲，统计型翻译引擎的基础数据是双语对齐的词、短语和句子，数据对齐的精度越高翻译质量也越高。但是数据精度越高，也意味着在现实应用中命中的概率也越低。曩昔以谷歌的壮大计算能力和的语言数据，也无法在穷尽各种语境、各种文句上可以再上一个台阶，谷歌的统计型翻译引擎的BLEU值好几年维持在40+的水平而无法显明进步。

神经网络的算法不再依靠人对语言的理解(词、短语和句子的对齐译法)，在许多语种中把词切分到字母的层级(即Subword)，比如词根、后缀等，对原文各个词之间的关系也计算得更加过细。谷歌新翻译引擎的神经网络达到了八层，计算的过程耗费了伟大的计算能力。这有赖于谷歌本身开发专门面向深度学习的TPU处理器，其单位耗电量的性能达到GPU和FPGA的10倍，且不外卖。

“神经机器翻译NMT体系是个好东西，但相对传通盘计机器翻译SMT来说，体系部署所需硬件投入至少涨十几倍。举个例子，抛开翻译性能而言，像采用我们组装的支撑4块GPU的服务器，NMT体系在如许一台价值4万多元的服务器上运行速度和吞吐，才接近于SMT体系在3000多元的PC机上的性能。假设用户为了知足大规模吞吐和翻译工作的话，比如必要100台机器的话，基于小牛翻译SMT版本只必要投入30多万硬件，但知足同样的性能假如采用小牛翻译NMT体系可能必要投入400多万硬件。真的期待硬件成本继承降落，才能真正让小牛翻译NMT体系真正走入中小企业啊。”小牛翻译的创始人、东北大学朱靖波教授感触道。

谷歌新引擎的发布让机器翻译行的专业人士达成了同等：神经网络算法的翻译引擎庖代传统引擎是行业趋势。但“庖代”是抛弃照旧迭代?这是一个庞大的题目，它意味着诸多传统机器翻译研究学者和行业从业者如何跨入下一步?

张家俊在10月下旬发表了一篇论文，宣布了他做的一项研究。他使用了一些传统词典的双语数据支撑神经网络的翻译引擎。因为算法的不同，这些词典的词对齐数据无法直接被神经网络的引擎使用。佳俊找到一些使用这些词的公开语句，行使传统引擎翻译成英文，再把这些复活成的数据作为神经网络引擎的源数据。在训练后的翻译引擎测试数据中，假如有100个低频词被词典覆盖，接近80个可以得到译文，匹配度接近80%。

“把现有的词典都照你的方法处理成神经网络引擎的语料，它的词的正确度就能大幅度进步吗?”笔者问张先生。家俊说：“不是的。我给的数据是传统翻译引擎的译文，有很大的噪音，因此不能说数据越多结果越好。”

张家俊说传统研发的积累，让他得以在新旧引擎之间找到了一些可以继续并创新的方法，为神经网络翻译引擎的提高提出补缺的新思路。

陈博兴研究员说：“机器翻译在可以预见的将来庖代不了人工翻译。尤其是如今的人工翻译的市场跟机器翻译的市场基本上不重合，人工翻译对准的是高端市场，要求很的翻译需求，而机器翻译则是1，要求不那么的翻译情景，比如旅游，比如网页欣赏，比如信息监控等等。2，机器翻译帮助专业翻译人员进步服从。假如中国对交际流的程度达到欧美如今的程度，那么中国的高端翻译市场将会是无比伟大的。有志于从事翻译的同窗，放心勇敢地进来吧。”

“举例来说，理想的法律翻译是100分，现实工作达到95或98分就很好了，80分、85分、95分的质量，收入/报酬的差别不是以五个百分点计算，而是以倍数计算。PE(注：译后编辑，一种新的翻译工作模式，译员基于机器翻译的效果进行校对编辑优化)假如没有能力提拔那几个百分点，那和机器翻译没啥差别，报价、收入一样上不去。”微博上的一个资深法律译者，@readthinker99 对译后编辑的看法。

神经网络翻译引擎NMT对翻译行业的益处是它给出的效果更吻合人的叙述风俗，可用的部分更多，而从事译后编辑的译员可以更专注在垂直的专业术语短语上给出好的翻译，是一石二鸟服从进步成本降低的好事情。

——————————

后记：

大赌注

面对神经网络计算的黑盒子，身在现实研究和开发中的专家基本上都和陈博兴老师持雷同态度：机器翻译离理解人类语言还很远，可见的时间里跨语种的深入交流必要借助有专业外语能力的人工帮助。由于神经网络的深度学习体例和基于统计的机器翻译算法一样，都没有涉及到语义的理解。无论如今神经翻译引擎读起来有多接近人的话语，这个软件其实“不理解”它计算出来的译文的意思。

人类对本身身认知过程的运转机制，还处于很浅层的研究阶段，脑科学还无法还原大脑在思考一个题目的心理过程。英国物理学家、认知学家戴维·多伊奇教授的看法是：“由于在其核内心有一个悬而未决的哲学题目：我们还不了解创造性如何运作。”所以人类也就无法复制创造的过程。这几乎是人对自身认知、对人工智能AI的清醒的一个出发点，但是神经网络研究者给了另外一条路径。

清华大学的韩锋先生给一本译著《重新定义智能》作序著文《让“人脑”走下神坛》，该文写于Alphago与李世石大战的过程中。其重要论点是，物理研究已经知道事物或体系有自相似性，基于一种重整化群的方法，使用神经网络的算法和够大的计算能力，可以计算出有计算机智能的逻辑，并得以诠释对象，比如Alphago克服了李世石。(详细阐述过程请参见原文)

韩先生的点出了大部分机器翻译专家面对的一个隐蔽题目：他们认为以可靠的能力和认知，机器无法理解人。但是谁也不能确认下一步神经网络会算出什么?那么韩锋先生提出来得可能性不能被证伪。霍金、马斯克说的机器威胁人类，也同样不能被证伪。

真风趣啊。AI时代，人类认知学的大家伙广告策划，拥有大数据的公司都在面对、觊觎或忧虑有一个潘多拉的盒子被打开。更多的人则充满热情和信念、欣喜地预备欢迎新的AI的提高，并计算现有的数据和能力，在那能做什么。万一没实现呢，我们也不会失去将来。

(本文得到了我的同事魏勇鹏、胡日勒的专业支撑)

作者：邹剑宇