最近,百度发布了融合统计和深度学习方法的在线翻译系统。除了将深度学习技术运用在一些具有长远想象力的未来产品上以外,这一次百度运用在了一个非常实际、但是又需要相当强的技术积累以及长年优化的应用上,这个应用就是机器翻译。根据百度官方的介绍,新发布的在线翻译系统,能借助计算机模拟的海量神经元,模仿人脑“理解语言,生成译文”,同时结合百度已有的统计机器翻译技术,让机器翻译质量实现突破。 最近两年,百度在人工智能上投入颇多,推出了一系列对技术要求颇高的产品,让人不免好奇,这背后动因究竟是为什么?一切可能还得从搜索的本质谈起。 搜索的本质其实就是连接人与信息、连接人与服务。在寻找信息和服务的过程中,难免会碰到需要查找国外信息——在中文优质内容普遍不如英文世界优质内容密度高的情况下,使用英文或者其它语言搜索信息,是非常大的需求。而为了更好地将人和各种语言的信息和服务连接起来,翻译显得尤为重要。 让机器理解语言,进而实现不同语言之间的无缝沟通,是世界级技术公司一直在致力于解决的难题之一。 基于深度学习的翻译系统的核心是一个拥有无数结点(神经元)的深度神经网络。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以「理解」的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。这套神经网络在构建之初,就像一个新生的婴儿,不懂任何事物,但有极强的学习能力。 神经网络构建之后,需要把大量双语互译对照的句子作为语料库,来帮助系统逐渐学习并提升翻译水平。从这个系统学习的逻辑可以看出,机器翻译系统最终的翻译效果表现如何,取决于两点:1、算法本身是否够好;2、数据本身是否够全、够多。 从外部观察角度,只有大公司有足够的技术实力将神经网络系统搭建起来。而从数据角度来看,像百度、Google这样的搜索引擎以及苹果的智能助手Siri,具备将机器翻译系统逐渐调教至最优的基础。不过来自搜索引擎以及来自智能手机助手的语料库会有不同之处。百度、Google分别在中文和英文世界具有统治地位,它们所拥有的海量的网页库资源、双语对照资源是最多最全的,除此之外,还有来自用户主动输入的自然语言,都是帮助机器翻译系统提高理解与翻译能力的资料库来源;智能手机助手在当前这个阶段会稍微尴尬一些:因为移动应用的世界不像互联网开放,它很难检索到太多的应用内的信息(Google Know可以搜索到的信息多一些,但仅仅只是应用的极其小的一部分信息),更多依靠来自用户的主动搜索语料库。考虑到Siri们当前并不太好用,所以Siri们能收集到的语料库还无法比拟网页世界。 机器翻译已经在翻译领域产生了显著影响。近日美国语言公司协会与欧洲语言行业协会联合发布了“2015语言行业调查报告”,这份报告在调查机器翻译带来的影响的时候,大多数公司都选择了“显著影响”(5分权重下选择4或者5),表明机器翻译技术已经开始发挥作用;这份报告还指出,在2014年,更多欧洲公司开始使用机器翻译,美国公司有21%的项目用到了机器翻译,为有史以来最高值。机器翻译系统也越来越普及,50%的欧洲公司和36%的美国公司拥有机器翻译引擎。需要注意的是,该报告是基于对欧美主流中小翻译公司得出的结果,除了日常使用,机器翻译已经在专业翻译领域发挥着越来越大的应用。 没有了语言障碍,地球将是什么样子?随着技术的发展,机器翻译在教育、旅游、社交、跨境交易等领域将有更大的应用空间,这是能预见到的改变。更难预测的颠覆性变化或许将发生在不同国家、民族的人们生活的连结方式上。技术本身很难解决现实世界人们的价值观问题,但信息技术的进步,在不断降低人们沟通的成本。当机器翻译进化到能让不同语言、不同文化的人无缝沟通的时候,技术将彻底推倒语言的围墙,而世界又将变成什么样子? |
|本站简介|联系我们|手机版|宇新科技 手机(V):18941000313 21122402000158 辽ICP备14018580号
GMT+8, 2024-10-12 18:37 , Processed in 0.039879 second(s), 19 queries .
Powered by Discuz! X3.5 Licensed
© 2001-2024 Discuz! Team.