爱吧机器人网 » 技术 > 机器人学 > 正文

如何设计一款垂直领域的对话型机器人?

\

如何设计一款垂直领域对话机器人,首先要了解一下对话型机器人要解决问题。

其实主要有两方面:

第一是听得懂,主要是讲的机器人要能够理解用户的语言——也就是自然语言理解。在这方面,已经很成熟,已经可以做到情绪的识别。

第二方面就是答得出,就是说在听懂的基础上,我能够给出最准确的答案,这就需要有一个庞大的语料做储备,或者说答案做储备。

作为一款垂直领域的机器人,可以解决两个问题:

第一,我可以预测到用户问的问题方向。

第二,我的语料可以做的非常的精细精密,能够做到问不漏,可以提升很大的用户体验。

所以说垂直领域的机器人搭建更简单,也更实用。

对话型机器人包括哪些模块

1. 问题的语义理解

问题的语义理解的过程包括两个子任务:意图识别和实体抽取。

意图识别 (intention classification):用来识别用户所提问题的意图,也就是用户希望做一件什么事。

本文只是简单的阐述一下意图分析的典型思路和方法,并实现一个基本的意图分类器。因为本文主要讨论垂直领域对话机器人的设计,所以用户的问题意图限定在了特定领域,因此答案的结果的准确率也会很高。

意图分类:做意图识别第一步是要做意图分类,根据所在领域,搜集归纳数个意图。并为意图命名。

数据准备:意图识别离不开数据,搜索领域的意图识别用到的数据通常就是用户的搜索日志了。一般一条搜索日志记录会包括时间-查询串-点击URL记录-在结果中的位置等信息。对话领域则需要批量的意图语料。

特征提取:特征的提取是为了方便进行分类计算,每一个特征都具备一定的权重,表明它的权值。通过特征的权值,就能够确定句子属于哪一个类别。这里我们将每一个字作为一个特征,1/(字出现的总次数)作为权值,并构建字典。

模型准备:模型准备需要的是建立分类模型。这里我们通过给每一个特征赋予一个得分,然后将句子中每一个字的特征得分进行相加,然后就可以得到句子在某一个类别下特征的总得分,从而能够对句子进行分类。

训练模型:在完成特征任务后,接下来就是选择合适的分类器进行训练了,因为意图识别可以看作是一个多分类任务,所以通常可以选择SVM、决策树等来训练分类器。

完成以上工作后基本上一个意图识别分类模型就建立好了,接下来就是对已识别语句的实体进行抽取。

实体抽取 (entity extraction):用于提取用户对话中所提供的和意图相关的参数(实体),例如:时间、地点等。

要想实现实体抽取,主要分为两步:

系统分词:现在都有一些开源的分词工具,可以实现很高精度的分词效果,如:jieba分词,它的全模式就是把句子中所有的可以成词的词语都扫描出来,速度非常快。

信息抽取:利用jieba分词后我们得到了切分好的短词信息,将该信息输入到语义识别模型中就可以实现机器人“听得懂”的功能了。

举个例子:智小保是一款保险行业的机器人,主要回答保险相关的问题。

那么可以如此定义意图和实体:

Case1:推荐一款小孩的医疗险给我?—— 意图:保险推荐;保险类型实体:医疗险,被保人实体:小孩 。

Case2:e生保的产品特色是什么?—— 意图:保险产品了解;了解维度实体:产品特色,产品实体:e生保。

垂直领域的对话机器人就可以根据该领域所涉及的所有问题进行聚合,梳理若干意图,根据意图拆分实体,意图越具象,实体颗粒度越细,回答越准确。

2. 知识库构建

知识库分为聊天话语库和聊天人属性库,聊天话语库由多个聊天话语记录构成,每个记录包含一条聊天话语、该聊天话语的语境信息、该聊天话语的多个回复话语及每一回复话语的限制条件集合。

聊天人属性库由多个聊天人属性记录构成,每个记录包含聊天人的静态属性和动态属性。聊天机器人都含有一个聊天知识库以及对话控制模块,聊天知识库就像聊天机器人的大脑,存储着回复用户输入的聊天知识,而对话控制模块则用于控制对话进程。

对于垂直领域的对话型机器人,知识库搭建则更为垂直。一般分为以下几个步骤:

(1)数据获取

人工维护录入数据:非标性答案。

第三方开放平台接口数据,例:金融股票行业对于股票实时信息有相应的API接口。

垂直爬虫爬取数据:所谓垂直爬虫,通俗的讲,可以认为是针对某一领域或行业的爬虫。网上的数据毕竟是错综复杂的,用户所需获取的信息是需要有针对性的。比如:保险行业可以去百度贴吧保险吧等类似垂直领域爬取数据。

数据商城购买数据。

(2)数据清洗

网路获取到的数据毕竟是杂乱无章和带有很多噪点,无法拿来直接使用,必须经过清洗后才能使用。

清洗基本也分为三个方向:

文本挖掘:从海量文本中提取出有用的信息。

协同过滤:协同过滤是利用集体智慧的一个典型方法——也就是说的少数服从多数。对数据中权重大的做优先级排序,类似今日头条的推荐系统。

深度学习:目前深度学习做对话系统,主流的核心算法是seq2seq,之后还有很多优化算法,如使用beam search解决前k个字符概率乘积最大、考虑低频回复的MMI,兼顾问题前后字符的信息——attention mechanism,解决连续多轮的问答HRED,同时使用reinforcement learning也能在一定程度上解决多轮问题。

总的来说,这些优秀的算法在一定程度上确实解决了问题,不过你还是得有合适的数据(如多轮问答数据)才能测试、评估、改进等。

(3)搭建知识库

知识库的类型又有结构化和非结构化之分,非结构化数据库的使用涉及复杂的数据分析、挖掘技术,在实现的效果和性能等方面都很难满足聊天机器人的要求,因此通常采用结构化的知识库。

例如:对于一个机器人对话系统,你说一句话,语音转成文字之后,根据文字的分词、句法、语义分析结果,去对应的语言库中,寻求或自动生成最合理的应答。

以保险行业为例来说:需要搭建。

通用知识库:所有保险名称及专属名称解释;

保险产品知识库 :所有保险产品,及相关维度信息;

保险产品推荐逻辑库:每款保险产品的适用地区、人群等相关维度信息;

保险公司库:所有保险公司相关信息;

核保知识库:针对所有情况的核保信息等。

在完成了上述工作后,一个可以理解人类语言的垂直领域的聊天机器人就可以为顾客服务了。但是这仅仅是可以服务,具体服务效果还需后期的验证,对于对话型机器人产品,其实这只是完成了30%工作,后续的标注、纠偏、训练才是重点。这便是机器人深度学习。


上一篇:让机器人去冰箱里拿瓶可乐有多难?
下一篇:新型机器人只需观察一次就能模仿人的动作
精选推荐
智能农业:种地的事儿未来全交给这些机器人吧
智能农业:种地的事儿未来全交给这些机器人吧

[2019-12-07]  SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC(Small Robot Company),正在 ...

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

[2017-03-21]  虽然有很多关于机器人取代工人的担心,但哈佛经济学家James Bessen的论文指出,在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

农业将为高科技行业 农业机器人的应用领域
农业将为高科技行业 农业机器人的应用领域

[2017-12-17]  农业正在迅速成为一个令人兴奋的高科技产业,吸引了新专业人士,新公司和新投资者。技术发展迅速,不仅提高了农民的生产能力,而且促进了我们所知道的机器人和自动化技术的发展。...

Crossbar将电阻式RAM推入嵌入式AI
Crossbar将电阻式RAM推入嵌入式AI

[2018-05-17]  电阻RAM技术开发商Crossbar表示,它已与航空航天芯片制造商Microsemi达成协议,允许后者在未来的芯片中嵌入Crossbar的非易失性存储器。此举是在先进制造业节点的领先代工厂选......

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

为未来战场创造更有效的机器人 美国陆军研究人工纳米马达
为未来战场创造更有效的机器人 美国陆军研究人工纳米马达

[2019-10-11]  为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友,美国陆军研究人员正在执行一项任务,即研究肌肉分子生命功能的价值,以及复制过 ...

本周栏目热点

全面了解机器人的精度

[2018-05-07]  1 绝对精度是啥玩意? 这个软件能否后刷进机器人系统?关于第二个问题,近期有不少客户询问本助手,这个软件可以后刷到系统里卖面吗?可以 ...

机器人离线编程误差来源分析及消除办法

[2018-01-02]  随着机器人应用领域越来越广,传统的示教编程这种编程手段有些场合变得效率非常低下,于是离线编程应运而生,并且应用越来越普及。初用离线编程的朋友,总会被最后生...

工业机器人之三大零组件:电机、控制器与减速器分析

[2018-03-20]  若以机械结构来看,工业机器人可区分为单轴机器人、座标机器人、水平多关节机器人(SCARA)、垂直多关节机器人以及并联式机器人(DELTA)等,以下依序就这五种类型来说明。...

工业机器人常用气缸的内部结构和工作原理

[2017-12-21]  气缸的组成 : 缸体,活塞,密封圈,磁环(有传感器的气缸)。原理 : 压力空气使活塞移动,通过改变进气方向,改变活塞杆的移动方向。失效形式 : 活塞卡死,不动作;气缸......

一文读懂机器人传感器的秘密

[2017-12-20]  机器人也是通过感知系统来感知世界,这个感知系统是通过各种各样的传感器组成的。传感器可以感受外界的信号,如光、热、烟雾、压力和湿度等等,并将信息传递给下一级装置,机......