爱吧机器人网 » 技术 > 模式识别 > 正文

对人工智能多点耐心 百度汉语语音识别获重大突破

苹果、微软、谷歌、百度,这些公司或许是提到语音识别,用户脑海里会浮现出的名字。电影《Her》里,主人公西奥多不知不觉地爱上了幽默风趣又善解人意的虚拟女友萨曼莎,尽管后者其实只是人工智能系统的一个化身。

近日举行的中国人机语音交互领域权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)上,百度透露其在汉语语音识别方面获得重大突破。据悉,百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使汉语安静环境普通话语音识别的准确率接近97%,未来将大规模应用在百度语音搜索等产品上。

百度CEO李彦宏:加大力度支持去哪儿网

日前,百度语音技术部负责人贾磊媒体专访时称,语音识别和大数据、机器学习、云计算等技术相辅相成,共同推进人工智能发展。

他表示,机器成本、高效计算等问题,是阻碍语音识别技术发展的几个重要因素。而百度研究的CTC模型在解码部分的速度,比传统模型快5倍到10倍。配合专业的深度学习计算硬件,使后台消耗大大降低,有助于实现语音识别技术的大规模普及。

一次框架性创新

百度方面透露,该技术创新是一项框架性的创新。这一突破也标志着,百度在世界范围内率先攻克了在汉语领域使用CTC技术训练单向多层LSTM的高精度建模难题。

据了解,2011年深度学习技术引入语音识别领域,推进整个工业界的人工智能技术应用进入深度学习时代。随后的几年里,CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不停涌现,并持续提升语音识别产品效果。

眼下,百度把语音识别的相对错误率降低15%,又会带来何种变化?对用户而言,是识别率更准、识别速度更快。对语音服务提供者来说,成本会降低很多。

“语音识别正处于产业化爆发的边缘,但机器计算成本是一个很大的瓶颈。如果线上50%的搜索都由语音完成,而计算成本还和过去一样,那么没有公司能承担得起。”贾磊表示,语音服务要想大规模普及,必须降低后台服务器开销。

他随即说,百度语音识别研究的CTC模型在解码部分的速度比传统模型快5倍到10倍。配合专业的深度学习计算硬件,当未来语音服务大规模普及时,可以让后台计算成本大大降低。对新技术的追赶,需要大数据、大平台、极致计算等结合做支撑,因此百度这样的公司在未来有优势。

改善方言、口音和远场识别

媒体:既然将把此项技术用到百度语音搜索产品上,对应用时间表、应用前后的产品功能和用户体验差别等,能否讲讲?

贾磊:我预计最早11月末、最迟12月末上线。因为我们做的时候都是比着工业产品的体量去做的,包括模型体积、计算量、训练速度,全部跟工业要求是一致的,所以可以很快应用到产品中去。

用了之后,首先语音识别会更准,其次由于它的计算量会很小,解码速度更快,后台成本就会很低。这个模型对方言和口音的识别效果都有一定的改善,而且对远场识别也有一定改善。因为它是在一个建模单元的十几帧数据中提取出来一帧最本质最有代表性的特征来描述这个建模单元,而这个本质特征的描述不容易随着时间、地点而改变,所以对语音识别的稳定性有很大的提升。

媒体:就您研究观察,未来语音识别技术的发展趋势以及应用场景如何?

贾磊:第一,想解决口音、噪音的问题,训练数据还会继续加大,现在几万个小时训练数据是工业现状,我相信在不久的未来一定是十万小时。如果出现这么大的计算量,对计算能力的需求会更加强烈。所以大数据和高性能计算,是语音识别发展到目前最明显和清晰的趋势。

第二,是基于深度学习的个性化识别。人的口音千差万别,不可能有一个语音识别器识别所有的声音,一定要实现个性化。而这种基于深度学习的个性化识别,一定需要海量的存储空间和很大的数据吞吐传输能力,这个也只有具有大数据和云计算这种服务能力的公司能够提供。

第三个行业趋势,语音识别技术会和语意理解、交互技术等形成一整套语音的解决方案。因为人使用语音的目的不是把语音转成文字,而是使用语音去进行交互,并获得其所需的服务结果。这是未来的工业发展趋势,单纯的脱离了服务、脱离了平台、脱离了计算能力去做语音技术的时代已经过去了。百度有场景、有内容、有需求,语音一定会做得越来越好。

媒体:语音识别技术要和其他技术,比如大数据、机器学习和云计算等一起应用,结合技术层面来讲,现在时机是否成熟?

贾磊:这些技术是相辅相成的。作为人工智能学科的同业者,我的感觉是,短期去看人们倾向于高估技术的价值,从长期去看人们倾向于低估技术的价值。

现在,人们可能倾向于觉得人工智能技术很牛,能够解决一切问题。但是短期内它没有解决,因此人就会产生一个心理,这个技术没用。但是,要对人工智能技术有信心,企业要敢于投入。当然,初期商业上肯定会有一些损失,可能短时间里不会为公司带来商业价值;但长远来看,有助于研发新技术,并获得新的商业突破。(文/娜拉)


上一篇:这项技术能让指纹在黑暗中发光 方便警察取证
下一篇:微软又推“黑科技”:识别人脸喜怒哀乐表情
精选推荐
美国人工智能公司Skymind进入福建全面开展业务
美国人工智能公司Skymind进入福建全面开展业务

[2017-12-11]  人工智能在当今这个时代对大家来说想必是非常熟悉的,这也是我国近十几年来一直追求的目标,未来的时间里这也将是全人类追求的目标。就目前来看,近年来,人工智能或在我国迎......

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

CES 2018:英特尔推出49量子位芯片争夺量子霸权
CES 2018:英特尔推出49量子位芯片争夺量子霸权

[2018-01-10]  在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中,英特尔通过了一个关键的里程碑。近日,这个科技巨头已经推出了一个49个量子位 ...

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站
搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09]  12月5日,搭载人工智能的太空机器人西蒙2号(CIMON 2)乘坐SpaceX火箭Dragon货运舱,从佛罗里达州卡纳维拉尔角空军基地升空,前往国际空间 ...

麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群

[2019-10-31]  几天前,小编向大家介绍过麻省理工(MIT)研发的一种自组装机器人集群(点此阅览),它们可以用统一标准的小单元自动组装出各种大型结构。 ...

本周栏目热点

苹果公司收购Regaind人工智能初创公司

[2017-10-01]  要说新一代的iPhone有什么新的黑科技,那么就一定要说到配备在iPhone X身上的人脸识别技术了,可以说,这是目前iPhone的最新也是最为惹人 ...

Facebook信使测试语音转换文字功能

[1970-01-01]   Facebook正在测试一项新的功能,该功能是Facebook信使应用的部分功能,它可以自动将语音信息转换为文字 ...

人脸识别:离生活越来越近

[1970-01-01]   你来到家门口,不用再在包里翻来翻去找钥匙,对着门前的 人脸识别 系统刷脸确认身份,便可进门;在超市 ...

人机交互技术:2015指纹识别将大爆发

[1970-01-01]   各项关于人机交互的技术正在不断发展、日益成熟,明年 指纹识别 技术将得到大爆发。所谓指纹辨识,顾名思 ...

科大讯飞第一季营收1.7亿 中移动成单一大股东

[1970-01-01]   4月24日消息,科大讯飞(股票代码:002230)昨日发布公告,公告显示,科大讯飞2013年第一季度营收1 73 ...