爱吧机器人网 » 技术 > 模式识别 > 正文

语音助手不灵 “对话交互”才是未来?

过去一年,从谷歌眼镜开始,穿戴式设备、智能家居和车载设备的兴起,将语音识别技术推到应用的前台。

对整个语音识别行业而言,过去一年也经历了前所未有的繁荣,语音识别技术也有大幅度提高,特别是对新兴创业公司而言,语音识别技术不再如过去那样封闭,而是逐步开放和开源,语音技术门槛逐渐降低。“专业公司的语音识别可以做到90%,小厂商可以利用开源技术至少可以做到70%左右的识别率。”语音识别的业内人士这样判断。

实际上,即使如专业语音识别厂商科大讯飞、云知声、思必驰等都可以做到90%以上的语音识别正确率,单独的语音识别在可穿戴设备中的应用依然不够“听话”。这甚至成为整体语音技术应用的一个最大痛点。

“语音识别的遗憾是再努力做也做不到百分之百”。智能语音技术创业公司思必驰首席科学家俞凯这样判断。

剑桥大学皇家工程院院士史蒂夫.杨(Steve Young)教授是语音识别界的权威人物,多年前开始思考另一个方向:“在识别有错误,或者在理解有歧义的情况下,人和人之间可以继续对话沟通达成目标,机器也应可以做到。”

沿着在英国奠定的“对话”技术路径,作为史蒂夫.杨的对话系统研究团队早期核心成员,剑桥大学语音识别博士俞凯,和另一位同在剑桥大学毕业的高始兴回国创业,创立了思必驰。从思必驰的进展来看,不纠结于语音识别的识别率的完美主义,而死磕人机交互的“对话”系统似乎可成为如何让可穿戴设备真正能用上语音技术的“捷径”之一。

语音助手不灵 “对话交互”才是未来?

语音助手的尴尬

自苹果iPhone 4S内置Siri以来,几乎所有的手机都开始内置语音助手类的应用。除了谷歌Now、苹果Siri,国内如百度、搜狐等公司都推出了语音助手类应用。

一年后,助手类应用几乎都面临着功能的同质化、用户体验不足、语音识别准确率在复杂条件下距离实用化尚有距离的问题。

Siri的迭代可以解释助手的尴尬。在苹果发布iPhone 一代和二代时并没有没有语音驱动。在当时,苹果的一个调研显示,75%的用户希望在手机中内置语音应用。随后,苹果在iPhone3GS中加入了语音控制的功能。实际应用中,不到5%的人会使用语音控制。苹果内部的总结发现,用户不使用语音控制不是不喜欢语音应用,而是由于语音控制不是用户的自然交互。

“有87%的用户每月至少使用一次Siri,但大多数用户都是和Siri聊天。而不是通过Siri完成任务。”Siri的一位负责人发布了这样的数据。

“Siri给我们的启示是,未来智能语音技术的发展,必须同时解决自然语言交互和完成有用任务的问题,而且限制越少越好,缺了哪个都不行。”俞凯说。

去年,Siri被重新整合到苹果的内容和服务部门,且设立的四个研发组中一个与语音识别相关,三个全都是与对话系统相关。另一家巨头谷歌于去年9月对外公布新算法“Hummingbird(蜂鸟)”目的是发展语义搜索;12月在巴黎举行的LeWeb上透露将采用反复对话的形式进行搜索。

俞凯认为,这个举动暗示巨头的战略在从语音识别向对话交互的方向迈进。

用对话交互解决痛点

对于那些不方便使用键盘和鼠标输入的设备而言,语音识别技术成为更有效的输入手段,帮助用户解决了输入的困难。

“有了语音识别,将语音转换成文本,再将文本用自然语言处理转换成语义就完成任务了么?”俞凯认为,这些还不够。“语音技术的本意是帮助用户最快地完成任务,但语音识别+自然语言处理不能彻底解决这个问题。”

单纯的语音识别的另一个局限是,识别+自然语言处理本质上是根据文本理解,语音先转换成文本,自然语言理解仅仅针对文本进行,这种模式很难应对语音识别的错误,也无法理解用户意图的模糊性。

这是由于,人天生的倾向于用非精确的信息来交互,因为非精确的信息传输量更大,更方便。机器却是需要有精确信息来处理才能让识别和自然语言处理更准确。这是一对天然的矛盾。

例如说“去九寨沟吃饭”,到底是去风景区,还是去一个叫九寨沟的餐馆是不清楚的。因为在识别过程中没有针对交互过程中的上下文建立对话模型和联系历史信息,这类用户意图的模糊是无法由自然语言处理完成的。

“我们把识别、理解、决策、合成等对话系统的各个模块进行联合优化,在每个模块出现处理上的偏差的时候,基于全系统丰富的非精确信息进行计算,更新交互,实现顺畅对话。在自然语言理解的基础上,又允许有不确定性的信息,综合去做理解和交互决策。”俞凯说。

剑桥语音技术血统的创业

科大讯飞的创始团队来自于中国科技大学,云知声的团队来自于中科院自动化所和盛大创新院。

在科大讯飞开始做语音识别技术之前,90年代初期,剑桥大学开发的HTK语音识别工具已经将实验室研究的语音识别技术的代码标准化,并免费提供给开发者,普及了语音识别技术的开发,至今也是全世界使用最为广泛的开源软件之一。

思必驰的创业血统来自于剑桥大学。俞凯和思必驰CEO高始兴是在剑桥的师兄弟。俞凯曾和对话领域的奠基人史蒂夫.杨搭档开展语音对话交互的研究和产业化工作。

2011年,高始兴看到中国市场上智能设备上有爆发之势,请俞凯回国,并从汉语和英语口语评测的方向转型,在完成高精度的云端语音识别之后,重点实现对话系统技术。

“2011年,我们的首轮融资来自联想之星。之所以在众多投资者中选择联想,是联想之前投资了科大讯飞有关。联想是唯一一家投过语音识别企业的。”高始兴说。

上一页12下一页

上一篇:嵌入式设计方案:ARM非特定人语音识别系统
下一篇:英特尔将推出基于本地处理的语音识别系统 速度超Siri
精选推荐
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23]  谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月,虽然遭到竞争对手的质疑,但就 ...

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

CES 2018:英特尔推出49量子位芯片争夺量子霸权
CES 2018:英特尔推出49量子位芯片争夺量子霸权

[2018-01-10]  在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中,英特尔通过了一个关键的里程碑。近日,这个科技巨头已经推出了一个49个量子位 ...

美国Natilus公司试飞水上无人货机 设计简单成本降低
美国Natilus公司试飞水上无人货机 设计简单成本降低

[2017-12-28]  Natilus创业公司成立于2014年,其梦想是建造大型无人机,以半价提供比船舶快得多国际货运。在十二月份,Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

本周栏目热点

苹果公司收购Regaind人工智能初创公司

[2017-10-01]  要说新一代的iPhone有什么新的黑科技,那么就一定要说到配备在iPhone X身上的人脸识别技术了,可以说,这是目前iPhone的最新也是最为惹人 ...

Facebook信使测试语音转换文字功能

[1970-01-01]   Facebook正在测试一项新的功能,该功能是Facebook信使应用的部分功能,它可以自动将语音信息转换为文字 ...

人脸识别:离生活越来越近

[1970-01-01]   你来到家门口,不用再在包里翻来翻去找钥匙,对着门前的 人脸识别 系统刷脸确认身份,便可进门;在超市 ...

人机交互技术:2015指纹识别将大爆发

[1970-01-01]   各项关于人机交互的技术正在不断发展、日益成熟,明年 指纹识别 技术将得到大爆发。所谓指纹辨识,顾名思 ...

科大讯飞第一季营收1.7亿 中移动成单一大股东

[1970-01-01]   4月24日消息,科大讯飞(股票代码:002230)昨日发布公告,公告显示,科大讯飞2013年第一季度营收1 73 ...