日前,合肥师范学院举办了一场特殊的考试。说它特殊,是因为“考生”只有一个,而且是一套机器翻译系统。考题来自三天前刚结束的大学英语六级(CET6)考试,评分的是两位具有六级阅卷经验的高校资深专家。“考生”一口气做了三道翻译题,每道题满分15分,它得到13分的均分,每题用时只有5秒。“这套机器翻译系统的表现让我们惊喜,翻译得很地道。”对于成绩,专家的鉴定是:优秀!
看似普通的系统背后,是机器翻译领域近一个世纪的技术积累,也包含着科大讯飞创新实现的领域翻译技术突破以及最新推出的行业翻译解决方案。
大学英语六级翻译测试共有三道考题。按规定,考生们只需作答一题,时间是半小时。
词汇量是第一需要具备的,目前六级词汇量要求达到6000个,其中不乏生僻词汇和短语;由于汉英间表达习惯的不同,逻辑、语序调整也十分重要。
科大讯飞团队12月14日就将机器和系统封存在公证处,“此举旨在确保在断网和无人工干预的情况下测评。”科大讯飞负责机器翻译的研发人员说。12月18日,在公证人员的见证下,考官分别打开三道考题,由人工输入电脑后系统作答,不到5秒便导出了文本。
成绩令人惊喜:每道题取三位评分专家的平均分,再计算三道题的平均分,最终机器翻译系统拿下13分。参考往年大学英语六级翻译考题的表现,可达到优秀六级考生的水平。
现场两位评分专家来自上海交通大学外语学院,“这套系统翻译出来的语言质量很高、语法也很地道,表现好过预期。”她们给出的评价称:机器翻译能准确表达原文意思、译文流畅、结构清晰,可以较好地辅助不同语言的信息沟通。
“到目前为止,机器翻译到底达到了什么样的水平,还没有人能够给出明确答案。”科大讯飞负责机器翻译的研发人员说。
据了解,科大讯飞自2012年启动机器翻译的研发工作,目前很多技术已达到世界领先水平。2014年,在IWSLT口译翻译比赛上就取得了中英互译的第一名;2015年NIST国际openMT机器翻译比赛,中英人工主观分获得冠军;刚刚过去的2018年IWSLT比赛,在端到端的语音翻译上再次以显著优势取得第一名。
“但机器翻译还是很难,主要是其处理的对象——自然语言存在复杂性。”研发人员介绍,自然语言是人类在社会生活中,通过不断的重复性使用而自然进化形成的沟通媒介(语言),并且在此过程中缺少规划和设计,使得语言本身就存在诸多不确定性,“同样一句话,在不同的语境中不同人就有不同的理解”。
机器翻译系统何以在大学英语翻译权威评测中获得好成绩?
“一是核心算法,二是大规模语料库,三是高性能计算平台。”研究人员介绍,机器翻译技术是利用计算机把一种自然语言翻译成另一种自然语言,从1933年正式被提出开始,目前已发展有三代技术、取得了长足的进步。
“最新一代技术是基于端到端的神经机器翻译。”神经机器翻译算法的提出,是当前机器翻译取得重大突破的关键。但想拿到高分,少不了“独门秘籍”。
“六级翻译题涉及文化、经济、历史、社会等多领域,还有不少专业表达或中国特色词汇,在整个翻译系统可供训练的语料中是比较匮乏的。”科大讯飞为了破解这一难题,对神经机器翻译进行若干改进,其中一项重要改进是领域翻译技术,即在通用翻译模型之上进行了领域定制。
“翻译中常会遇到行业术语,有的机器可能没有见过、有的见过却在不同行业有不同翻译方式。”科大讯飞给出的解决方案是:提前将行业领域的关键词汇融入翻译模型,指导机器在平日训练中自动学习术语,从而在翻译过程中产生正确的译文。
早在2016年,科大讯飞就发布了讯飞翻译机产品,并在业界第一个推出了纯离线的神经网络的离线口语翻译系统。而今,讯飞翻译机的用户遍及全球170个国家。
未来,有了最新的翻译技术,它们会有什么改变?
在某跨国医疗技术峰会现场,你可以拿出最新升级的讯飞翻译机2.0,和与会外宾专家畅聊。从“口袋里的翻译官”升级为“行业翻译官”,这台小机器在通用翻译模式下新增行业翻译模式,正是使用了该技术;除了金融,在医疗、计算机等行业专业场景下都可以实现中文与英文的及时互译。
让人类更便捷的交流、更轻松的工作,机器翻译技术的发展也正在实现着用人工智能建设美好世界的愿景。