1. 首页
  2. 女人

讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就来了! 英汉互译在线翻译语音

受访者 | 刘聪

记者 | 夕颜

出品 | CSDN(ID:CSDNnews)

「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。

本文为 「AI 技术生态论」系列访谈的第十六期,解剖科大讯飞语音与计算机视觉互通技术,以及对多模态与人机交互未来趋势预判。

当今,如果把语音技术和计算机视觉技术单拎出来,两者无论是学术研究还是应用,都可以说已经到了相对成熟的阶段,小到手机上各种 App,大到航空航天科研,语音和视觉技术已经渗透到人类生活的方方面面。但如果是把二者结合起来呢?甚至是把文字、语音、视觉、动作、环境等多种形式结合起来,进行更深层次的人机交互呢?这就是所谓的多模态交互,在技术专家的设想中,多模态交互能够充分模拟人与人之间的交互方式,让人与机器之间实现真正意义上的互动更进一步。

多模态交互技术与应用的研究现状如何?大家都在做着哪些努力,尝试着打破人与机器之间的隔阂?今天,我们将透过这方面的专家——科大讯飞 AI 研究院执行院长刘聪,与他的技术成长路线一起,一探这些问题的究竟。

硕博连读,被保送至讯飞语音实验室的学霸

硕博连读期间,刘聪获得了去微软亚洲研究院和加拿大约克大学访问学习各半年的机会。2010 年,海外学子学成归国,并顺利拿到了博士毕业证。

在这里,刘聪的第一个研究方向,就是将语音与计算机视觉之间的深度学习算法打通。

为什么要做这个方向呢?

(图片已获授权,右为刘聪)

DFCNN 框架

关于智能语音和计算机视觉,以及将声音、视觉、触觉等人类感官结合起来的多模态信息处理、语音/机器翻译等炙手可热的研究热点,刘聪还与 CSDN 分享了他对这些话题的洞见与看法,下面,我们就来逐一剖析这位资深技术人对未来技术方向的预判。

多模态信息处理与融合将会是大趋势

这种将声音、视觉、触觉等人类感官结合起来的思路,与刘聪正在进行的语音与计算机视觉之间的互通是一回事吗?

而多模态研究的兴起,更多地是因为很多实际问题只用以往的纯语音或者纯视觉的方法很难很好地解决问题,只有更接近人处理问题的方式,给到更多的输入信息才能把问题解决。这是两者出发点上的一些区别,因此可以说两者不是一回事。

但从广义上来讲,又可以说这两者就是一件事,正是因为有很多实际问题只靠单一的语音或者视觉无法解决,产品需求对技术提出了更高的要求,因此促使研究人员必须改进核心技术,多模态研究就是一个很好的技术演进方向,从这个角度来看,两者又可以说是同一回事。

此外,刘聪还认为, 多模态技术的发展将会围绕应用层、核心算法层以及硬件层三个层面展开,在应用层的研究相对较多,也取得了很多不错的成果,而核心算法层以及硬件层的探索目前相对做的还不够,都是值得未来深入研究的方向,比如不同模态信息直接如何更有效的互补,如何更深层次的融合,不同的任务需要哪些模态的信息,以及不同模态的感知信息如何更好的和认知相结合。

基于视觉呈现的语音交互是未来方向

如上文所说,多模态研究将会是未来研究的重点,多模态交互也自然将成为未来人机交互实现突破的关键点。

目前来说,基于视觉呈现的语音交互是大家研究的重要方向之一,刘聪也认为这是一个值得深入的研究点,

机器翻译若想进步,还需要在这几方面继续探索

“也许有一天,当我们把 CHiME 比赛场景也能做到好用的时候,真正的人工智能就快到来了,”刘聪还是比较乐观的。

对于让人又爱又恨的机器翻译,刘聪有着自己的思考与观点。

他总结,机器翻译技术的发展经历了最早期基于规则的方法,到上世纪 90 年代初的统计机器翻译,再到目前最新的神经机器翻译技术,机器翻译在口语、通用等场景的性能已经媲美人类译员的翻译效果。但是机器翻译若要取得更大进步,还需要在以下几个方面进行持续性的探索:

多语种翻译 ,目前全球现存语言超过5000种,绝大多数的语言没有或仅有极少量平行语料,因此需要研究在数据量很少的情况下提供可用的多语种机器翻译能力。 行业翻译 ,针对不同的行业提供更加专业、准确的翻译将是未来机器翻译发展的另一个关键技术。

放飞想象,未来人机交互方式还有哪些可能性?

长久以来,有无数人都在苦苦探寻人与机器之间互动交流的奥秘,科技日新月异发展至今,我们有了巨大的进步,但是了解得越深,越明白我们离这个目标相差得还很远。

未来,除了基于视觉呈现的语音交互方式之外,还会有哪些可能的交互方式?人机交互领域的技术生态会发生怎样的改变?

刘聪认为,人机交互方式将会越来越多样化以及多种不同方式的组合,在呈现上会越来越丰富以及个性化。除了传统的视觉呈现方式,还可以有基于更富有感情和个人特色的语音合成技术的语音呈现方式,以及更自然的虚拟形象的拟人化视觉呈现。

虚拟形象的表达方式也可以从口唇的表达到结合表情和身体姿态的情绪表达,这样在交互上也更自然化人性化。

今日福利

遇见陆奇

同样作为“百万人学 AI”的重要组成部分,2020 AIProCon 开发者万人大会将于 7 月 3 日至 4 日通过线上直播形式,让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验,同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动,不仅可以与上万名开发者们一起交流,还有机会赢取直播专属好礼,与技术大咖连麦。

原创文章,作者:非佛网,如若转载,请注明出处:https://www.radiospt.com/28/398108.html