爱吧机器人网 » 资讯 > 企业 > 正文

依图科技声纹识别权威竞赛夺冠,智能语音再下一城

作者:栗峰
编辑:唐里


\
在奥地利召开的机器语音国际顶会 InterSpeech 2019 上,国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge(VoxSRC)公布最新结果,依图科技大幅领先海内外多支强队获得冠军,再次展示了世界级人工智能算法实力。

不仅如此,依图团队使用小数据就取得了优于其他团队使用大数据得到的结果,充分表明中国声纹识别技术已达世界领先水平。

\
依图团队(logicworld)在全球权威声纹识别竞赛 VoxSRC 2019夺冠,等错误率(EER)0.0098,大幅领先第二名。

声纹识别为什么难?

声纹识别是一种通过声音判别说话人身份的技术。如果说语音识别是让机器判断「说了什么」,那声纹识别就是判断「是谁说的」,用于解决生物身份的确认和识别。

2012 年以来,深度学习技术逐渐进入声纹识别主流,这种方法纯粹采用数据驱动的方式,通过海量数据样本和深度神经网络模型,让机器自动去发掘声学特征中说话人的信息差异,从而「学会」声学特征中的说话人信息表示。

很显然,使用基于端到端深度学习的方法做声纹识别,拥有大量声纹数据样本,就有了无可置疑的优势。

目前,声纹识别应用还处于探索阶段,但其应用前景十分广阔。最容易想到的,比如会议录音的音频转录,在结合了声纹识别技术后,就能自动标注出谁在什么时候说了什么,轻松完成多人会议纪录,大幅提高工作效率。

随着技术的不断成熟和融合,声纹识别技术将逐渐融入日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。

VoxSRC:声纹识别界的 ImageNet 竞赛

VoxSRC 是由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院(SRI International)和 MIT 的研究者联合发起的全球声纹识别竞赛,可以说是「声纹识别界的 ImageNet 竞赛」。在很大程度上,VoxSRC 结果反映了全球声纹识别技术最高水平。

VoxSRC 基于开源数据集 VoxCeleb,由牛津大学团队于 2017 年发布,后来逐渐扩充,现在是声纹识别领域规模最大、标注最完备的开源数据集之一。

VoxCeleb 来自 YouTube 名人采访视频,包含了 7000 多个不同种族、性别、口音、职业和年龄的说话人,在不同场合下超过 100 万段的说话声(utterance),时长加起来总共超过 2000 小时(每段音频的长度从 3 秒到 20 秒不等)。

除了数据量大且来源多样化,VoxCeleb 的音视频基本都含有背景噪音、笑声、重叠的说话声和其他杂音,非常考验算法的实战水平。

\
牛津大学发布并维护的VoxCeleb数据集是目前全球规模最大、标注最完备的开源声纹数据集之一,数据来源多样且都来自无约束场景,非常考验算法的实战水平。

此外,VoxSRC 的测试数据集是「盲的」(blind),即没有任何标注。这些数据无法用来训练或调整系统,确保了比赛结果的公正与准确(不会出现有团队过拟合数据的情况)。

今年的 VoxSRC 吸引了海内外多支队伍参与,有约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等知名高校和研究机构,也有平安科技、NEC、君林科技等大企业。

竞赛的任务很明确,就是判断两段音频是出自同一个人,还是来自两个不同的人。算法的输出结果用等错误率(Equal Error Rate,EER)来衡量。

EER 是衡量声纹识别算法系统综合性能的重要指标,EER 值越小,系统的性能就越好。

什么是EER、FAR、FRR?

评估算法系统性能时常输出ROC 曲线,用于描述FAR(误识率)与FRR(拒识率)之间的关系。

简单说,在声纹识别中,误识率就是“把不应该匹配的声纹当成匹配声纹”的比例,拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景,就会把FAR值设置得低一些,因为判断错一次的代价很大,但这样做的同时会导致FRR值上升,用户体验度下降。

\
等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与45度角直线相交的点,是衡量声纹识别算法系统综合性能的重要指标。EER数值越小,系统性能越好。

为了评估数据量(训练样本多少)对系统性能的影响,这次 VoxSRC 竞赛给定了两种情况,一是固定数据集,另一个是无约束数据集。

固定数据集任务,参赛队伍使用的训练数据集是固定的,也即 VoxCeleb2,该数据集包含了来自 5994 个不同说话人超过 100 万段的说话声音频。
无约束数据集任务,参赛队伍在训练模型时,可以使用除竞赛测试集以外的其他任何数据,包括未公开发布的数据。
依图团队以 0.0098 的 EER 值获得本届竞赛冠军,也是唯一将 EER 值降低到 0.01 以内的团队。

特别值得一提的是,这个结果比其他团队无约束数据集任务的结果更好(无约束数据集任务的冠军 EER 值为 0.0126)。

中国最好的就是全球最好的

依图已经不是第一次在国际人工智能公开比赛中获得第一。

成立 7 年来,依图在视觉感知、自然语言处理、语音识别、智能决策等多算法领域发展,并且都独占鳌头。这次在全球声纹识别权威竞赛 VoxSRC 中夺冠,是对中国自有 AI 技术能够引领世界的又一个绝佳证明。

今年 5 月,依图发布自研云端 AI 芯片求索(questcore™),旨在提升智能密度,结合世界领先人工智能算法和先进芯片设计理念,同等功耗下的视觉推理性能是 NVIDIA GPU 的 5 倍。

基于求索构建的智能视频分析系统,将原本需要 16 台机柜的方案压缩到 1 台,降低数据中心整体建设成本 50%,运维成本 80%,让 10 万路智能视频解析系统成标配,50 万路成现实,大幅提升基础设施智能水平,为人工智能应用落地和普及奠定了坚实的基础。

8 月 29 日,依图获得科技部正式授牌,承建视觉计算国家新一代人工智能开放创新平台,促进芯片设计与人工智能的融合,同时针对不同业务场景打造一系列定制化芯片,支持智能城市、智慧医疗和智慧金融等行业。

未来,依图将在多算法领域持续投入,多模态技术融合,软硬件协同开发,将世界优胜人工智能算法与行业场景深度结合,推动人工智能应用落地。

上一篇:SandStar视达完成近亿元B轮融资,由国鹏资本领投
下一篇:ABB最大机器人工厂上海动工,预计2021年投入运营

本周栏目热点

[2019-11-27]  机器人正在各行各业替代人力,焊接领域也不例外。焊接作为工业界的裁缝,重要程度不言而喻。但是焊接现场往往环境恶劣,烟尘、弧光、金属飞 ...

波士顿动力的机器狗SpotMini将于2019年开卖

[2018-05-14]  成立26年后,波士顿动力公司(Boston Dynamics)终于打算开始卖机器人了。在在 TechCrunch 于加州大学伯克利分校举办的TC机器人 ...

[2019-08-20]  国内工业机器人企业艾利特(ELITE)机器人宣布完成1亿元人民币B轮融资,由国中创投领投,元禾原点、策源创投、索道资本跟投,指数资本担任 ...

Starship科技宣布在美国大学校园部署自动送货机器人

[2019-08-21]  Starship科技宣布未来两年内在美国各地大学校园内部署数千台自动六轮交付机器人。这些机器人已经在20个不同国家的100多个城市进行了测试, ...

美的集团2017年报点评:科技引领制造业升级,工业机器人成为未来看点

[2018-04-03]  美的集团(000333)2017 年内生稳定成长, kuka 并表贡献额外增长。 美的 2017 年实现收入 2419 亿元 +51%,归母净利润 172 亿元 + ...

精选推荐

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

新型轻便机器人套装重5kg,辅助跑步和步行
新型轻便机器人套装重5kg,辅助跑步和步行

[2019-10-23]  虽然步行对大多数人来说似乎不是负担,但对有些人来说,这项简单的运动往往会让人感到筋疲力尽。比如手术或中风后恢复的患者、帕金森氏症患 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

麻省理工正研究植物机器人 让植物自主控制机器人
麻省理工正研究植物机器人 让植物自主控制机器人

[2018-12-08]  控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人,但我们很少听说植物机器人对吧?一个机器人其实是对植物有很大益处的,因为一般植物根本无法移动......

美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

基于生物启发的机器人很容易适应丢失附属器官
基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17]  很多机器人被设计应用在危险环境,如灾难现场。在这些地方,他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗?也许不是,如果它们像日本的东北和北海道大学创造的......

揭秘达芬奇手术机器人
揭秘达芬奇手术机器人

[2018-04-19]  达芬奇手术系统是由美国Intuitive Surgical公司制造的机器人手术系统。美国食品和药物管理局(FDA)于2000年通过该标准,旨在利用微创手段 ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...