您当前的位置：首页 > 科技网络

"倾听"1分钟,就能开口模仿人类"讲话"

2017-06-02 06:02:12

　　据《科学美国人》杂志网站2日报导，加拿大新创公司琴鸟（Lyrebird）发布了新款人工智能（AI）语音系统，其能通过分析讲话录音和对应文本和二者之间的关联，在1分钟内模仿人类“讲话”，比如，模仿特朗普、奥巴马和希拉里3个人的声音展开1段对话。

　　让声音听起来更自然，是计算机程序在将文字转换成语音进程中面临的核心挑战，即便目前最好的语音助手，如苹果公司的Siri和亚马逊公司的Alexa，1发声给人的第1感觉依然是，“哇！这是计算机。”背后缘由在于这些语音助手系统的工作原理：根据预录的声音文档整理出辞汇，再通过另外一个新的音频文档将这些辞汇拼凑在1起发声。

　　而琴鸟公司的AI使用了1种全新的语音合成系统，能在“聆听”进程中“掌握”每一个人说话时字母、音位和单词的发音特点，通过推理并模仿这个人声音中的情感和腔调，“说”出全新的语句。

　　新系统使用模仿人脑思惟的算法创建出1种人工神经网络，能利用深度学习技术将所听到的转换成语音，并仅靠任何人1分钟讲话内容，就可以完全模仿这个人说话。其市场前景非常广阔，可用来改进个人人工智能助手、音频书籍和残疾人语音系统等。

　　开发该系统的蒙特利尔大学学习算法实验室博士后亚历山东大学·布瑞比森表示，在学会并模仿了几个人的声音后，再模仿任何1个新对象的语音就会变得更快，因此新语音系统不需太多信息，1分钟足以捕获某个人声音的核心特点。

　　但美国卡内基梅隆大学语言技术研究所教授迪莫·鲍曼表示，琴鸟的语音系统和真实的人声之间还有差距。“我仔细听过琴鸟系统的发声，其带有背景噪音，和微弱的机器人特点。而且，它还不能模仿人们在讲话中的呼吸和唇部运动，因此依然能听出其计算机语音特点。”鲍曼说。他认为，语音系统真正使人佩服地复制人声，还需再等几年。

　　总编辑圈点

　　人类的嗓音最美好，天籁之音怎能被机器模仿出来？1呼1吸间的抑扬抑扬，1颦1笑间的情感起伏，才是人之为人的精华所在。虽然机器模仿人声还差能人意，但仍大有用武之地——高德地图林志玲版，不就是机器通过学习特殊语料后，模仿独特人声在给司机指路嘛。但需知，语音合成只是人工智能的1个基础层次，要想到达以假乱真乃至人机交互，估计还得1210年。（记者聂翠蓉）

TAG：