爱吧机器人网 » 资讯 > 企业 > 正文

依图科技声纹识别权威竞赛夺冠,智能语音再下一城

作者:栗峰
编辑:唐里


\
在奥地利召开的机器语音国际顶会 InterSpeech 2019 上,国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge(VoxSRC)公布最新结果,依图科技大幅领先海内外多支强队获得冠军,再次展示了世界级人工智能算法实力。

不仅如此,依图团队使用小数据就取得了优于其他团队使用大数据得到的结果,充分表明中国声纹识别技术已达世界领先水平。

\
依图团队(logicworld)在全球权威声纹识别竞赛 VoxSRC 2019夺冠,等错误率(EER)0.0098,大幅领先第二名。

声纹识别为什么难?

声纹识别是一种通过声音判别说话人身份的技术。如果说语音识别是让机器判断「说了什么」,那声纹识别就是判断「是谁说的」,用于解决生物身份的确认和识别。

2012 年以来,深度学习技术逐渐进入声纹识别主流,这种方法纯粹采用数据驱动的方式,通过海量数据样本和深度神经网络模型,让机器自动去发掘声学特征中说话人的信息差异,从而「学会」声学特征中的说话人信息表示。

很显然,使用基于端到端深度学习的方法做声纹识别,拥有大量声纹数据样本,就有了无可置疑的优势。

目前,声纹识别应用还处于探索阶段,但其应用前景十分广阔。最容易想到的,比如会议录音的音频转录,在结合了声纹识别技术后,就能自动标注出谁在什么时候说了什么,轻松完成多人会议纪录,大幅提高工作效率。

随着技术的不断成熟和融合,声纹识别技术将逐渐融入日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。

VoxSRC:声纹识别界的 ImageNet 竞赛

VoxSRC 是由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院(SRI International)和 MIT 的研究者联合发起的全球声纹识别竞赛,可以说是「声纹识别界的 ImageNet 竞赛」。在很大程度上,VoxSRC 结果反映了全球声纹识别技术最高水平。

VoxSRC 基于开源数据集 VoxCeleb,由牛津大学团队于 2017 年发布,后来逐渐扩充,现在是声纹识别领域规模最大、标注最完备的开源数据集之一。

VoxCeleb 来自 YouTube 名人采访视频,包含了 7000 多个不同种族、性别、口音、职业和年龄的说话人,在不同场合下超过 100 万段的说话声(utterance),时长加起来总共超过 2000 小时(每段音频的长度从 3 秒到 20 秒不等)。

除了数据量大且来源多样化,VoxCeleb 的音视频基本都含有背景噪音、笑声、重叠的说话声和其他杂音,非常考验算法的实战水平。

\
牛津大学发布并维护的VoxCeleb数据集是目前全球规模最大、标注最完备的开源声纹数据集之一,数据来源多样且都来自无约束场景,非常考验算法的实战水平。

此外,VoxSRC 的测试数据集是「盲的」(blind),即没有任何标注。这些数据无法用来训练或调整系统,确保了比赛结果的公正与准确(不会出现有团队过拟合数据的情况)。

今年的 VoxSRC 吸引了海内外多支队伍参与,有约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等知名高校和研究机构,也有平安科技、NEC、君林科技等大企业。

竞赛的任务很明确,就是判断两段音频是出自同一个人,还是来自两个不同的人。算法的输出结果用等错误率(Equal Error Rate,EER)来衡量。

EER 是衡量声纹识别算法系统综合性能的重要指标,EER 值越小,系统的性能就越好。

什么是EER、FAR、FRR?

评估算法系统性能时常输出ROC 曲线,用于描述FAR(误识率)与FRR(拒识率)之间的关系。

简单说,在声纹识别中,误识率就是“把不应该匹配的声纹当成匹配声纹”的比例,拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景,就会把FAR值设置得低一些,因为判断错一次的代价很大,但这样做的同时会导致FRR值上升,用户体验度下降。

\
等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与45度角直线相交的点,是衡量声纹识别算法系统综合性能的重要指标。EER数值越小,系统性能越好。

为了评估数据量(训练样本多少)对系统性能的影响,这次 VoxSRC 竞赛给定了两种情况,一是固定数据集,另一个是无约束数据集。

固定数据集任务,参赛队伍使用的训练数据集是固定的,也即 VoxCeleb2,该数据集包含了来自 5994 个不同说话人超过 100 万段的说话声音频。
无约束数据集任务,参赛队伍在训练模型时,可以使用除竞赛测试集以外的其他任何数据,包括未公开发布的数据。
依图团队以 0.0098 的 EER 值获得本届竞赛冠军,也是唯一将 EER 值降低到 0.01 以内的团队。

特别值得一提的是,这个结果比其他团队无约束数据集任务的结果更好(无约束数据集任务的冠军 EER 值为 0.0126)。

中国最好的就是全球最好的

依图已经不是第一次在国际人工智能公开比赛中获得第一。

成立 7 年来,依图在视觉感知、自然语言处理、语音识别、智能决策等多算法领域发展,并且都独占鳌头。这次在全球声纹识别权威竞赛 VoxSRC 中夺冠,是对中国自有 AI 技术能够引领世界的又一个绝佳证明。

今年 5 月,依图发布自研云端 AI 芯片求索(questcore™),旨在提升智能密度,结合世界领先人工智能算法和先进芯片设计理念,同等功耗下的视觉推理性能是 NVIDIA GPU 的 5 倍。

基于求索构建的智能视频分析系统,将原本需要 16 台机柜的方案压缩到 1 台,降低数据中心整体建设成本 50%,运维成本 80%,让 10 万路智能视频解析系统成标配,50 万路成现实,大幅提升基础设施智能水平,为人工智能应用落地和普及奠定了坚实的基础。

8 月 29 日,依图获得科技部正式授牌,承建视觉计算国家新一代人工智能开放创新平台,促进芯片设计与人工智能的融合,同时针对不同业务场景打造一系列定制化芯片,支持智能城市、智慧医疗和智慧金融等行业。

未来,依图将在多算法领域持续投入,多模态技术融合,软硬件协同开发,将世界优胜人工智能算法与行业场景深度结合,推动人工智能应用落地。

上一篇:SandStar视达完成近亿元B轮融资,由国鹏资本领投
下一篇:ABB最大机器人工厂上海动工,预计2021年投入运营

本周栏目热点

[2019-08-20]  国内工业机器人企业艾利特(ELITE)机器人宣布完成1亿元人民币B轮融资,由国中创投领投,元禾原点、策源创投、索道资本跟投,指数资本担任 ...

[2019-09-14]  9月12日,ABB宣布其位于中国上海的机器人新工厂和研发基地正式破土动工。该工厂位于上海康桥,占地6 7万平方米,总投资额达1 5亿美元(约10 ...

一批AI新势力登上创新加速营路演台

[2019-08-18]  即将在月底召开的2019世界人工智能大会(WAIC)的热度正在不断蹿升。8月14日—15日,作为今年世界人工智能大会会前重要活动之一的2019世界 ...

Starship科技宣布在美国大学校园部署自动送货机器人

[2019-08-21]  Starship科技宣布未来两年内在美国各地大学校园内部署数千台自动六轮交付机器人。这些机器人已经在20个不同国家的100多个城市进行了测试, ...

亏三年,九号机器人还有没有出路?

[2019-09-11]  编辑 | 于斌出品 | 于见(ID:mpyujian)上个月,九号机器人在北京召开了一场新品发布会并推出旗下三款全新的AI产品:智能共享滑板车T6 ...

[2019-09-11]  投中网9月10日消息 宣布完成近亿元B轮融资,此轮由国鹏资本领投、墨白资本跟投。值得注意的是,SandStar曾用名YI Tunnel ,于2019年9月 ...

依图科技声纹识别权威竞赛夺冠,智能语音再下一城

[2019-09-11]  作者:栗峰编辑:唐里在奥地利召开的机器语音国际顶会 InterSpeech 2019 上,国际声纹识别权威竞赛 VoxCeleb Speaker Recognition C ...

[2019-09-10]  9月9日消息,据国外媒体报道,微软和英国制药公司阿斯利康(AstraZeneca)宣布,它们将联手推出医疗人工智能(AI)加速器AI Factory for ...

精选推荐

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

Crossbar将电阻式RAM推入嵌入式AI
Crossbar将电阻式RAM推入嵌入式AI

[2018-05-17]  电阻RAM技术开发商Crossbar表示,它已与航空航天芯片制造商Microsemi达成协议,允许后者在未来的芯片中嵌入Crossbar的非易失性存储器。此举是在先进制造业节点的领先代工厂选......

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)
亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)

[2017-03-21]  近日,亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想,他控制了一个巨大的机甲机器人。据国外媒体Verge报道,前天(3月19日),贝 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......