爱吧机器人网 » 技术 > 人工智能 > 正文

何晓冬:语言与视觉的跨模态智能

0 引言

本文谈谈我(何晓冬)在语言与视觉的跨模态智能研究与产业应用方面的一些思考。

人工智能领域中,模态是指智能体接收和输出信息的特定方式。当前人工智能领域研究的主要模态包括语音、文本、图像、视频等。近30来,计算机及相关技术的高速发展产生了大量的不同模态的信息(语音、文本、图像、视频,以及多样的结构化数据等),并进而催生出针对不同模态的专业领域研究,例如人类语言技术(Human Language Technology,HLT)、计算机视觉(Computer Vision,CV)等。

 

语言与视觉的跨模态智能

鉴于跨模态研究方向的重要性,本文将从表征学习、跨模态信息融合和典型应用三个角度简要介绍近年来跨模态领域,特别是语言与视觉跨模态领域的主要研究方向及相关研究进展,并探讨跨态方向未来的研究趋势。

1 研究发展状况

语言与视觉跨模态领域的研究可从以下3个角度来进行归纳。

1.1 跨模态表征学习

跨模态表征学习研究将多个模态数据所蕴含的语义信息投影到连续向量表征空间以进行信息融合和推理(见图1)。与单模态表征学习(如文本表征模型Deep Structured Semantic Models (DSSM)、Bidirectional Encoder Representations for Transformers(BERT)等)往往只关注单一模态数据自身的特点不同,跨模态表征学习需要同时从多个异质信息源(例如视觉、文字、语音等)中通过联合学习提取被研究对象的特征,并需要 将不同模态的语义信息投影到一个统一的表征空间。之前常用模型包括Deep Multimodal Similarity Models (DMSM)等模型,而近期在单一文本模态BERT的启发下提出的一系列图像/视频与文本融合的模型,比如VL-BERT等代表了这个方向的最新研究展。跨模态表征学习还包括通过建立跨模态的统一的语义空间将信息富集的模态上学习的知识迁移到信息匮乏的模态,比如跨模态的小样本学习、领域自适应等。该研究方向旨在对于缺乏标注数据、样本存在大量噪声,以及数据收集质量不可靠的情况下,尝试将其他模态上学 习到的知识迁移到目标模态,以提高其性能。

图 1 跨模态语义空间与表征学习

1.2 跨模态信息融合

1.3 跨模态智能应用

典型的语言和视觉跨模态任务,包括图像/视频转文字(Image/Video Captioning)、文字转图像 (Text-to-Image Synthesis)、视觉问答(VQA)、跨模态检索(Cross Modal/Media Retrieval)、视觉+语言导航(Vision-and-Language Navigation)、跨模态人机对话与交互(Multimodal Dialogue and HumanComputer Interaction)等。这些任务一方面驱动了跨模态智能各方面的基础研究,另一方面也在实际场景中得到了广泛的应用。随着跨模态研究的深入,更多的应用还将被提出。

2 前景和机遇

在上面提到的研究方向之外,以下3个研究与应用方向在未来也有很大的发展空间。

2.1 跨模态常识知识学习

2.2 跨模态情感智能

高级的情感智能是人类特有的一种认知能力。人类的交流天然是情感丰富的,并且往往跨越多个模态(语言、视觉、结构化知识等)。为建造高度拟人化的人机交互智能体,机器需要能理解以及生成跨模态的情感内容,能与人进行有同理心的跨模态情感交流。这个方面的基础研究不但可帮助我们理解认知智能机理,也有很大的实际应用价值。比如目前直播,以及短视频等文娱媒介极大地满足了众多用户的情感寄托需求,由此积累了大量用户,产生巨大商业价值。在这个方向业界已经有了一些尝试,比如微软的小冰机器人就将情感安抚作为一个主要的能力。跨模态情感智能的难点在于如何感知和对齐在不同模态下情感的微妙的表达,并保证不同模态之间数据的一致性与合理性。该任务属于跨模态研究的跨模态融合问题,目前该问题尚未有成熟的相关研究。

2.3 大规模复杂任务导向跨模态智能人机交互系统

服务产业智能化对人工智能技术而言是个巨大的机遇,也是个巨大的挑战。以电商为例,在业务不断拓展的背景下,电商产业面临的是超大规模的数据应用和零售全链条复杂人机交互的场景,需要对10亿级别的用户提供个性化的高效率的零售服务体验,所以急需大规模复杂任务导向跨模态智能人机交互技术的支撑。为此,在推动开源开放跨模态人机交互系统框架,构建大规模数据集和算法验证平台,开展跨媒体信息智能技术的基础研究等几个方面均充满机遇。而在这些方面的基础研究和技术突破也将为更广泛的服务产业的智能化提供支撑。

3 总结

语言与视觉跨模态智能的研究关注于将偏感知的视觉智能与偏认知的语言智能相结合,使得智能体能获取更全面的能力。目前跨模态的研究尚处于初级阶段,是新兴的研究方向,但却是人工智能发展历程上的重要节点。如何建造具有多重模态感知能力的智能体,并利用不同模态数据之间的联系来提升智能体对世界的认知能力是一个重要的课题。本文对跨模态研究的背景和研究方向做了简单的梳理,希望能进一步激发人工智能学者对语言与视觉跨模态研究的兴趣,推动这一研究领域的进展。

(参考文献略)

选自《中国人工智能学会通讯》

2020年 第10卷 第1期 特约专栏

何晓冬

博士、京东集团技术副总裁、人工智能研究院常务副院长、IEEE/CAAI Fellow。华盛顿大学(西雅图)等院校兼职教授。曾任多个国际一流学术期刊编委,发表了100多篇论文,谷歌学术论文引用超过1.5万次。

 


上一篇:为了防止机器人产生自我意识,技术专家公布新的人工智能设计方法
下一篇:OpenCV 4.3.0 发布,OPEN AI LAB AIoT智能开发平台Tengine 与OpenCV合作共同加速边缘智能
精选推荐
哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤
哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤

[2019-11-06]  哈佛大学研究人员发表在《自然》杂志上的一项最新研究,他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂(RoboBee),这种机器人在撞墙、 ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群

[2019-10-31]  几天前,小编向大家介绍过麻省理工(MIT)研发的一种自组装机器人集群(点此阅览),它们可以用统一标准的小单元自动组装出各种大型结构。 ...

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

为未来战场创造更有效的机器人 美国陆军研究人工纳米马达
为未来战场创造更有效的机器人 美国陆军研究人工纳米马达

[2019-10-11]  为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友,美国陆军研究人员正在执行一项任务,即研究肌肉分子生命功能的价值,以及复制过 ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

本周栏目热点

如何才能知道对方宣传的是伪AI? 只需问5个问题

[2017-03-15]  编者按:随着人工智能在图像识别、围棋、扑克等方面取得了重大突破,现在AI现在已经被炒上天去了。很多新推出的产品和服务都是言必称采用了 ...

AI人工智能:帮你测算恋爱的死亡日期

[2017-10-01]  AI是科技领域中的一个概念,而恋爱,是人类的一种情感。科技本身是没有情感的,因此,我们一般不会将AI与恋爱结合在一起,但是最近,由南加 ...

人工智能革命揭秘上篇(上)

[2016-03-09]   我们即将创造出一种新的生命形式,这个事件不仅是进化取得突破的标志,也有可能威胁到人类这个物种的生 ...

谷歌AI对弈围棋冠军李世石 3月9日看曹大元说棋

[2016-03-04]   3月9日,我们将迎来一场人机世纪大战!战书已升起,100万美元的奖金悬在空中。人工智能和人类大脑,究 ...

Facebook人工智能机器人生成照片以假乱真

[1970-01-01]    无论你是否认为面部识别令人毛骨悚然,很明显全球多家科技公司正在继续投资开发更强大的图像智能技术。  无论是微软的猜年龄机器人, ...