实时语音翻译能否解除“巴别塔魔咒” ?
欢迎关注“创事记”的微信订阅号:sinachuangshiji
李北辰/文(微信公号:future-is-coming)
长久以来,人类都有一个共同夙愿:发明一个机器,实现全人类之间毫无障碍的自由交谈。而毫无疑问,自由交谈在一个宣称自由连接的互联网时代更能彰显它的价值——毕竟,同是地球人,同住地球村,当你我觅得彼此,却听不懂彼此语言,实在有些尴尬。
事实上,与那些让生活变得复杂的“智能产品”不同,实时翻译是那种让人在直觉上理应拥有的技术,正因如此,它也一直存在于《星际迷航》《神秘博士》以及《银河系漫游指南》等科幻作品中。好消息是,人类似乎离这个夙愿越来越近了。
几天之前,微软旗下的Skype(听起来很久远的名字)宣布,具备实时语音翻译技术的翻译器Skype Translator中文预览版正式在中国市场推出。其实不同母语间的人直接对话,让机器实时翻译,这些技术微软早在去年就已与公众见面,只是那时还不支持中文——你知道,哪怕是对于机器,有大约一万个常用汉字以及各种语音语调的中文也颇具挑战性。但如今,包括微软和谷歌在内的科技巨头的发力,使得地球上使用人数最多的语言和使用最广泛的语言能直接展开对话。
那么问题来了,作为不同文化之间的摆渡人,倘若实时翻译真能实现人类的自由交谈,这一切意味着什么?
翻译神器
作为一项长久愿望,在此前数十年时间,语音实时翻译的发展一直受到错误率高,麦克风敏感度差异,噪音环境等因素阻碍。但近些年来,由于大数据的涌现,这项技术取得了不错的进展。而Skype Translator更是凝聚了微软在语音识别,自动翻译和机器学习等多领域的成果。
简单地说,Skype Translator的翻译逻辑主要分为三步:将你的实时语音转成文字;将文字翻译成另一种语言的文字;将文字转成语音。其中,识别实时语音并转成文字是最棘手的部分。
如你所知,精确的实时语音翻译有赖于强大的机器学习——也就是软件学习训练数据的能力。这些训练数据包括翻译的网页,配有字幕的视频,以及预先翻译且转录成文字的一对一谈话。事实上,已有不少人分享了他们过去的对话记录。Skype Translator通过记录对话来分析文本并训练系统更好地“学习”语言——当准备好的数据录入系统后,机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型,当你说话时,软件会在统计模型中寻找相似内容,然后应用到预先“学到”的转化程序中,得以让语音转换为文本,再从文本转换成另一种语言。
值得一提的是,与程序设定一般的朗诵不同,人会一边思考一边说话,会犯错,这种犯错在口语表达中的体现就是打磕巴,停顿,重复,或者频频出现如“嗯”“啊”“呃”之类的语气助词,针对于此,Skype Translator的机器学习模型也会处理这些停顿。在预览版中,用户可以看到部分语气词停顿被移除,而未被移除的部分则可能通过用户反馈进行再优化。
不过,作为一项不断优化的技术,无论是微软的Skype Translator还是“老对手”谷歌的Google Translate,至少在现阶段,实时语音翻译技术应该还谈不上完美,系统对语音的识别准确率也有待完善——你知道,语言如一只野兽,时刻都在变化,哪怕同一国家,因地域不同也有不同口音与俚语文化(有人就非常期待机器实时翻译以下对话:“约吗?我在火车站等你。”“我去!太远了!我不去!”)。这些问题可以通过更大范围的数据解决么?也许能,但还需要时间。
然而无论怎样,就像一位评测者所言:“(如今语音实时翻译)整个体验就像是两名电话销售员在使用对讲机,不过在使用过程中,这样的抱怨将会被‘奇迹’带来的震惊所取代。”
地球村
在《圣经·创世纪》中记载,曾有一个时代,人类拥有共同的语言,于是有人想在巴比伦造一座通天塔——巴别塔,以便直接跟上帝对话,为了惩罚人类的傲慢与虚荣,上帝让这些人说不同的语言,导致人们无法沟通,鸡同鸭讲,人类计划失败,自此各散东西。
那么技术能解除“巴别塔魔咒”么?倘若语言不再是人类交流的壁垒,会发生什么?
让我们先来谈谈语言的意义。在全球7000多种语言中(尽管有不少“小语种”已日渐枯萎),除了词汇和语法的表层差异,不同的语言是否能使人类产生不同的思维方式——譬如对时间与空间概念的认知,或者对因果关系的认知,几千年来就一直是学者们争论的主题。神圣罗马帝国的查理曼大帝就曾在科技还不甚昌明的时代宣称:“掌握第二种语言就是拥有第二个灵魂。”
当然,从科学的角度,斯坦福大学教授Lera Boroditsky也曾颇具诗意地表达过语言的意义:“每种语言都包含着一种独特的世界观,反映了使用者数千年来的思想,倾向和认知方式。一种语言就像一个完整的宇宙,人类有7000多个平行宇宙,有的彼此相似,有的大相径庭。这种巨大的多样性是人类头脑灵活性和精致性创造出的奇迹。我相信,对人类认知世界的认识越深刻,就越能更好地理解人类的本质。”
嗯,倘若互联网发展的底层逻辑是将全人类更好地连接在一起,形成一个巨大村落,那么语言也许就是最后一个技术障碍。在此之前,图片作为全世界的通用语言,在社交应用上发挥了巨大作用——无论在哪个国家,笑容就是笑容,哭泣就是哭泣。当然,表情符号也发挥了类似作用——你知道么,真的有人曾用表情符号聊了45分钟。
所以,可以肯定的是,当人类连接在一起,打破语言的壁垒,更好地理解彼此,势必将开启“地球村”的新篇章。
最后我想说,对于那些连四级都没过的同学,你们也许真的有福啦。
(声明:本文仅代表作者观点,不代表新浪网立场。)
569资源网发布
原文地址:http://tech.sina.com.cn/zl/post/detail/i/2015-04-14/pid_8476515.htm