爱吧机器人网 » 资讯 > 企业 > 正文

云知声数据标注团队:我们是怎样教机器人说话的

"如果机器在某些现实的条件下,能够非常好地模仿人回答问题,让提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。" —— 阿兰·图灵

人机对话是人类对人工智能最初的设想,也一直是人工智能领域的目标之一。

即使我们经常听到"这个问题我还没有学会",但是不可否认,人工智能已经基本实现"可以说话"了。那么,机器人是怎样学习的呢?这就需要提到人工智能需求下诞生的一个新职业,也是人工智能背后的"隐形者"——数据标注专员。

云知声数据标注团队:我们是怎样教机器人说话的
众所周知,我们教小孩子认识海豚,就要拿海豚的图片告诉他,这是海豚。久而久之,他记住了海豚的特征,当他去动物园看到了海豚,就知道那是海豚。类比机器人,为了让机器人"像人一样说话",我们先要教它学习,通过大量的学习之后,它才能对事物做出分辨。

在AI领域,教机器人学习必须有大量的训练集和测试集,训练集通俗说就像是我们学习时做的习题集,测试集像我们考试做的试题。测试集和训练集里的数据必须是支持算法可用的标注数据,而将采集的原始数据变成算法可用数据的过程叫做"数据标注"。即对采集来的文本、图片、语音数据进行梳理、整理、定性的过程。而数据标注专员就成了为人工智能的发展供应重要且源源不断的"数据燃料"的人。

云知声就有一个庞大的数据标注团队从事数据服务工作,并且,仅有的数据标注团队还在云知声的东南总部厦门公司哦。团队的小伙伴几乎每天默默戴着耳机对着电脑7-8小时,真的是此处无声胜有声!

云知声数据标注团队:我们是怎样教机器人说话的
数据标注是一项重复且繁琐的工作,如果把人工智能比作金字塔,最顶端的是人工智能应用(比如机器人、无人驾驶等),而最底端的则是数据服务,数据服务既是根基,也是人工智能必要且必不可少的一环。

数据标注工作真的像是工厂里的流水线操作吗?只是重复性地对数据进行标注吗?

云知声数据标注团队的负责人许建说,目前人工智能领域对于数据采集和标注的需求量非常大,数据采集后首先进行数据清洗,清洗之后才是数据标注,标注要求尽可能地详尽、清楚,最后的审查阶段对标记的数据进行正确率、精确度、完备性等方面的审查。实际是,数据质量会影响到算法效果,一旦标注人员出现了错误,也会影响到机器犯错。

云知声数据标注团队:我们是怎样教机器人说话的
目前主要有语音、图像、文本、视频数据的采集标注。云知声日常所涉及的是语音的标注,与智能产品进行语音交互和我们平时与人的交流对话相似,在生活中,你可能突然问你身边的人,"小云,现在几点了","现在3点十五分","小云"就是唤醒词,"现在几点了"就是命令词,唤醒词和命令词均要采集。为了让即便带有背景嘈杂声、或是略带方言口音也能准确识别,这背后有一个数量庞大的数据训练集支撑。每个语音命令需要采集至少100人的语音数据,既要罗列出所有可能的句子,又要搜集尽可能多的人不同的说话方式,覆盖到地域、性别、各年龄段。

比如我们的PandoraA1客房智能管家,当查询酒店服务时,就有多种表达方式,"提供什么服务"、"包括哪些服务"、"有哪些服务"、"有什么服务"等。同时,会有严格的性别、年龄段、口音采集人数占比,以保证最终的精准识别。

云知声数据标注团队:我们是怎样教机器人说话的
云知声数据标注团队:我们是怎样教机器人说话的
对每一个采集的词句,都要做到精细标注,采集的语音需要符合相应的技术要求,标注的时间点要精准控制在100毫秒以内。数据标注的速度决定了AI 产品的研发速度,提高标注的效率也就显得很重要。

为了配合数据标注团队的工作厦门展厅还藏着一个神秘的声学实验室,这里可以说是整个公司最安静的地方了。

云知声数据标注团队:我们是怎样教机器人说话的
声学实验室的主要用途是采集原始声音数据,为了贴近产品实际使用场景,整个装修布置符合家居场景。

实验室采用减振隔声墙体,房间被墙体隔开,墙面、吊顶与外部房间没有任何刚性连接,完全与外界隔绝。墙内的吸声材料主要由多孔的玻璃纤维板组成,具有较好的声音吸收能力,除了吸声材料外,声学实验室四周还布置了窗帘,可以让声音充分扩散,使整个空间内的声场均匀分布。地板采用的是地砖和吸声地毯,实现实验室与建筑基座的分隔,无反射和回声。

声学实验室内五脏俱全—标准麦克风、高保真音箱、声卡……应有尽有。

许建说,为了达到设备在实际应用场景中达到最优效果,在声学实验室采集时就要模拟真实环境,需要覆盖不同的噪音、信噪比、距离和角度。

为了保证支持远讲的语音产品出厂前的效果,在前期的采集阶段就要把产品在实际应用中受到的噪音干扰和不同距离、角度的声音效果考虑进去。

云知声数据标注团队:我们是怎样教机器人说话的
云知声数据标注团队:我们是怎样教机器人说话的
像我们有些设备是支持5米远讲识别的,就要求录音人距离录音设备一米、三米、五米距离的录音数据,同时会设置0°、-30°、-60°等不同角度的设备叠加采集。经常在采集的过程中根据场景需要加入音乐噪声、电视噪声、办公噪声、室外噪声等,模拟出真实场景的噪音干扰。

人工智能的发展,催生了数据标注这个新职业,随着人工智能大规模的落地应用,至少在未来的五六年内,人工智能像是一个嗷嗷待哺的婴儿,等待着数据的喂养。数据标注专员赋予冷冰冰的机器以鲜活的"生命",教他们我们的知识,让他们变得有"温度"。



上一篇:猎豹移动Q2财报净利润同比增180% AI机器人业务加速场景落地
下一篇:谷歌发布首批预打包的人工智能服务
精选推荐
2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

本周栏目热点

将NLU技术引入企业服务领域,ForeTHought获900万美元A轮融资

[2018-12-07]  近日, ForeTHought宣布已经获得了由New Enterprise Associates领投的900万美元A轮融资,该公司希望将NLU技术引入企业领域,致力于帮助“知识类专员”,例如客户服务代表等......

星逻智能发布无人机综合操作系统UltraHive Mk 3“启”

[2019-07-10]  6月20-22日,2019世界无人机大会在深圳隆重举办,来自国内外的四百多家企业参会,千余架无人机精彩亮相。为赋能无人机而生的星逻智能自然不 ...

分拣机器人创企Covariant B轮融资4000万美元!打包准确率达99%

[2020-05-08]  昨日,机器人创企Covariant宣布完成4000万美元B轮融资,以将其机器人控制系统引入更多行业,并开发出更多有拾取、放置和卸载仓库中物体功能 ...

双足机器人Cassie获投5000万 致力于解决快递运送最后30米

[2018-04-17]  腿足机器人,一直以来都是一个神奇的存在。虽然近几年发展势头很猛,但除去应用于科研平台,很少有人把它真正应用于产业化(玩具类机器人除 ...

2019年亏损11亿元的寒武纪是否可以成为明日之芯?

[2020-04-03]  寒武纪是一家人工智能芯片设计商,主营业务为各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发生产销售。目前,寒武纪的主要 ...