爱吧机器人网 » 技术 > 机器人学 > 正文

如何设计一款垂直领域的对话型机器人?

\

如何设计一款垂直领域对话机器人,首先要了解一下对话型机器人要解决问题。

其实主要有两方面:

第一是听得懂,主要是讲的机器人要能够理解用户的语言——也就是自然语言理解。在这方面,已经很成熟,已经可以做到情绪的识别。

第二方面就是答得出,就是说在听懂的基础上,我能够给出最准确的答案,这就需要有一个庞大的语料做储备,或者说答案做储备。

作为一款垂直领域的机器人,可以解决两个问题:

第一,我可以预测到用户问的问题方向。

第二,我的语料可以做的非常的精细精密,能够做到问不漏,可以提升很大的用户体验。

所以说垂直领域的机器人搭建更简单,也更实用。

对话型机器人包括哪些模块

1. 问题的语义理解

问题的语义理解的过程包括两个子任务:意图识别和实体抽取。

意图识别 (intention classification):用来识别用户所提问题的意图,也就是用户希望做一件什么事。

本文只是简单的阐述一下意图分析的典型思路和方法,并实现一个基本的意图分类器。因为本文主要讨论垂直领域对话机器人的设计,所以用户的问题意图限定在了特定领域,因此答案的结果的准确率也会很高。

意图分类:做意图识别第一步是要做意图分类,根据所在领域,搜集归纳数个意图。并为意图命名。

数据准备:意图识别离不开数据,搜索领域的意图识别用到的数据通常就是用户的搜索日志了。一般一条搜索日志记录会包括时间-查询串-点击URL记录-在结果中的位置等信息。对话领域则需要批量的意图语料。

特征提取:特征的提取是为了方便进行分类计算,每一个特征都具备一定的权重,表明它的权值。通过特征的权值,就能够确定句子属于哪一个类别。这里我们将每一个字作为一个特征,1/(字出现的总次数)作为权值,并构建字典。

模型准备:模型准备需要的是建立分类模型。这里我们通过给每一个特征赋予一个得分,然后将句子中每一个字的特征得分进行相加,然后就可以得到句子在某一个类别下特征的总得分,从而能够对句子进行分类。

训练模型:在完成特征任务后,接下来就是选择合适的分类器进行训练了,因为意图识别可以看作是一个多分类任务,所以通常可以选择SVM、决策树等来训练分类器。

完成以上工作后基本上一个意图识别分类模型就建立好了,接下来就是对已识别语句的实体进行抽取。

实体抽取 (entity extraction):用于提取用户对话中所提供的和意图相关的参数(实体),例如:时间、地点等。

要想实现实体抽取,主要分为两步:

系统分词:现在都有一些开源的分词工具,可以实现很高精度的分词效果,如:jieba分词,它的全模式就是把句子中所有的可以成词的词语都扫描出来,速度非常快。

信息抽取:利用jieba分词后我们得到了切分好的短词信息,将该信息输入到语义识别模型中就可以实现机器人“听得懂”的功能了。

举个例子:智小保是一款保险行业的机器人,主要回答保险相关的问题。

那么可以如此定义意图和实体:

Case1:推荐一款小孩的医疗险给我?—— 意图:保险推荐;保险类型实体:医疗险,被保人实体:小孩 。

Case2:e生保的产品特色是什么?—— 意图:保险产品了解;了解维度实体:产品特色,产品实体:e生保。

垂直领域的对话机器人就可以根据该领域所涉及的所有问题进行聚合,梳理若干意图,根据意图拆分实体,意图越具象,实体颗粒度越细,回答越准确。

2. 知识库构建

知识库分为聊天话语库和聊天人属性库,聊天话语库由多个聊天话语记录构成,每个记录包含一条聊天话语、该聊天话语的语境信息、该聊天话语的多个回复话语及每一回复话语的限制条件集合。

聊天人属性库由多个聊天人属性记录构成,每个记录包含聊天人的静态属性和动态属性。聊天机器人都含有一个聊天知识库以及对话控制模块,聊天知识库就像聊天机器人的大脑,存储着回复用户输入的聊天知识,而对话控制模块则用于控制对话进程。

对于垂直领域的对话型机器人,知识库搭建则更为垂直。一般分为以下几个步骤:

(1)数据获取

人工维护录入数据:非标性答案。

第三方开放平台接口数据,例:金融股票行业对于股票实时信息有相应的API接口。

垂直爬虫爬取数据:所谓垂直爬虫,通俗的讲,可以认为是针对某一领域或行业的爬虫。网上的数据毕竟是错综复杂的,用户所需获取的信息是需要有针对性的。比如:保险行业可以去百度贴吧保险吧等类似垂直领域爬取数据。

数据商城购买数据。

(2)数据清洗

网路获取到的数据毕竟是杂乱无章和带有很多噪点,无法拿来直接使用,必须经过清洗后才能使用。

清洗基本也分为三个方向:

文本挖掘:从海量文本中提取出有用的信息。

协同过滤:协同过滤是利用集体智慧的一个典型方法——也就是说的少数服从多数。对数据中权重大的做优先级排序,类似今日头条的推荐系统。

深度学习:目前深度学习做对话系统,主流的核心算法是seq2seq,之后还有很多优化算法,如使用beam search解决前k个字符概率乘积最大、考虑低频回复的MMI,兼顾问题前后字符的信息——attention mechanism,解决连续多轮的问答HRED,同时使用reinforcement learning也能在一定程度上解决多轮问题。

总的来说,这些优秀的算法在一定程度上确实解决了问题,不过你还是得有合适的数据(如多轮问答数据)才能测试、评估、改进等。

(3)搭建知识库

知识库的类型又有结构化和非结构化之分,非结构化数据库的使用涉及复杂的数据分析、挖掘技术,在实现的效果和性能等方面都很难满足聊天机器人的要求,因此通常采用结构化的知识库。

例如:对于一个机器人对话系统,你说一句话,语音转成文字之后,根据文字的分词、句法、语义分析结果,去对应的语言库中,寻求或自动生成最合理的应答。

以保险行业为例来说:需要搭建。

通用知识库:所有保险名称及专属名称解释;

保险产品知识库 :所有保险产品,及相关维度信息;

保险产品推荐逻辑库:每款保险产品的适用地区、人群等相关维度信息;

保险公司库:所有保险公司相关信息;

核保知识库:针对所有情况的核保信息等。

在完成了上述工作后,一个可以理解人类语言的垂直领域的聊天机器人就可以为顾客服务了。但是这仅仅是可以服务,具体服务效果还需后期的验证,对于对话型机器人产品,其实这只是完成了30%工作,后续的标注、纠偏、训练才是重点。这便是机器人深度学习。


上一篇:让机器人去冰箱里拿瓶可乐有多难?
下一篇:新型机器人只需观察一次就能模仿人的动作
精选推荐
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05]  莱布尼茨,德国哲学家、数学家、律师,历史上少见的通才1666年,德国博学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发 ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

揭秘达芬奇手术机器人
揭秘达芬奇手术机器人

[2018-04-19]  达芬奇手术系统是由美国Intuitive Surgical公司制造的机器人手术系统。美国食品和药物管理局(FDA)于2000年通过该标准,旨在利用微创手段 ...

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

谷歌在中国成立一个新的人工智能(AI)研究中心
谷歌在中国成立一个新的人工智能(AI)研究中心

[2017-12-13]  谷歌正在中国建立一个新的人工智能(AI)研究中心,希望进一步扩展到中国,以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一,亚马逊,微软......

本周栏目热点

麻省理工正研究植物机器人 让植物自主控制机器人

[2018-12-08]  控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人,但我们很少听说植物机器人对吧?一个机器人其实是对植物有很大益处的,因为一般植物根本无法移动......

机器人离线编程误差来源分析及消除办法

[2018-01-02]  随着机器人应用领域越来越广,传统的示教编程这种编程手段有些场合变得效率非常低下,于是离线编程应运而生,并且应用越来越普及。初用离线编程的朋友,总会被最后生...

全面了解机器人的精度

[2018-05-07]  1 绝对精度是啥玩意? 这个软件能否后刷进机器人系统?关于第二个问题,近期有不少客户询问本助手,这个软件可以后刷到系统里卖面吗?可以 ...

使用Azure Bot创建一个智能聊天机器人|附源代码

[2018-01-09]  首先,需要在Azure门户上创建一个帐户。只有这样,我们才能在云环境中托管应用程序。在左侧菜单上单击New,它将打开Azure Marketplace,在那里我们可以看到服务列表。点击AI +认知服务...

未来10年机器人技术面临这十大挑战

[2018-02-09]  近年来,机器人研究取得了长足的进步,但要想在我们的生活中普及机器人仍是障碍重重。《Science Robotics》杂志列举了机器人普及亟待解决 ...