爱吧机器人网 » 技术 > 人工智能 > 正文

同样是阅读中文 为什么人工智能不如你

“春暖花开的时节,我却是一个人孤单单的熬夜加班,吃着炒鸡难吃的方便面”。
 
这句话让人工智能来解读,“炒鸡难吃”的意思就是“炒鸡难吃”。对你来说,“炒鸡难吃”明显是“超级难吃”,这是“炒鸡简单”的一句话。在阅读中文这件事情上,人工智能未必比你聪明:正确分词已经很难,正确理解这样网络新词、“错误”语句难上加难。
 
哔哩哔哩弹幕——史上最难中文分词语料库
 
对于中文分词来说,哔哩哔哩弹幕是“史上最难中文分词语料”。因为 B 站弹幕上充斥着各种稀奇古怪的网络新词,大量的语义模糊的叠词,故意用错来卖萌的词也随处可见。类似于“炒鸡难吃”、“蓝瘦香菇”的词句非常多。

哔哩哔哩弹幕
 
明知山有虎,偏上虎山行。今天给大家分享一下我们处理高难度分词语料的一些经验。先看一下我们对哔哩哔哩弹幕分词能够达到的效果:

中文分词结果
 
中文分词:艰难挑战,仍有办法
 
做哔哩哔哩弹幕的分词实验,说明“分词”在中文自然语言任务中,是一个高难度的挑战。为什么强调中文分词?有两方面原因:
 
首先因为分词是中文自然语言任务中独有的操作。像英语这样的西欧语言天生有单词间的间隔,所以根本没有分词这一说。这意味着你无法从国外各种公开课中学习到中文的分词技巧。
 
其次因为中文分词的效果会对句子意思产生巨大影响。分词方式稍有不同,句子意思就千差万别。比如“结婚的和尚未结婚的”这句话,分成“结婚的|和尚|未结婚的”与“结婚的|和|尚未结婚的”意思完全不同。
 
以下面这句为例:
 
“春暖花开的时节,我却是一个人孤单单的熬夜加班,吃着炒鸡难吃的方便面”。
 
这个句子有两个“特色”,一个是叠字“孤单单”。网络用语中,尤其是哔哩哔哩的弹幕中有很多的叠字出现,比如最常见的“呵呵,呵呵呵呵呵”。另一个特色是“炒鸡难吃”,在网络中经常会出现这样的同音错字,有时候是因为用拼音输入法打错了,有时候是故意打错字来卖萌。
 
“炒鸡难吃”是什么意思?是“超级难吃”。为什么大家会知道?因为它们读音很像,你很难看出来,但念一遍就很容易明白。汉字读音对我们来说,都有上下文语境(语境,context),我们会根据这个字的声音去做推理。
 
如何判断同音或者同形错字,并将这些错字修正?这其实就是自然语言理解领域中的“文本归一化任务(Text Normalization)”技术,文本归一化就是把一个东西的不同讲法,甚至错别字,校准成为标准讲法。判断同音错字,只需要比对拼音的相似性。判断同形错字,可以将汉字作为“图”进行处理,将每个汉字变为一个24*24的图片,用机器视觉来解决这个问题。

\
 
结合了偏旁部首的中文字向量
 
聪明分词:提取语言深层特征,真正理解文本含义
 
在处理中文的过程中,我们需要发掘更多更抽象的深层特征。传统的分词方法可以帮助我们。在发明新东西,有时候需要在旧东西身上找灵感。过去使用词性分词,效果不好,不是因为词性没用,而在因为在浅层特征的框架下,词性无法发挥它的实质能力。而如果你将它们放到更深层的特征里去,结果就截然不同。
 
让我们看词向量。词向量是现代自然语言任务中的标准配备。它通过词嵌入与维度降低,将复杂问题用简单方法(数学运算)解决。但是在这里面也隐藏了一个很大的隐患,对于中文来说,分词是词向量的基础,如果前面分词分错了,那么后面的(词嵌入)就全毁了。
 
我们都知道使用词向量可以进行一些很有趣的运算,比如“黄晓明之于angela baby”等于“胡歌之于谁”,答案是霍建华。你会发现我们在上面写的不是“angela baby”,写的是“angela”。因为现在的中文分词有一个坏习惯,看到空格就分词。就比如我们使用jieba分词是分不出“小S”这个词的,它会分出“小|S”,即“小的S”。

\
 
不同的切分方式会产生不同的语义。语言有这样的深层特征,当你把它先简化,再分词切分,再扔进语言模型里去,就会损失掉太多有意义的信息。所以我们应该使用深度学习来帮助我们取到一个完整语句的语意,而且重点是,它在这个阶段所获得的信息,会有利于后面各个阶段任务的完成。在语言里面所得到的一些信息,其实都是一种上下文(context),而这些隐藏的规则和概念,有助于我们对句子的理解。
 
有一天我们可能可以依靠大量语料与庞大的计算力去解决这样的事情,但是通过活用一些技巧,我们可以省下很大工作量。如果仅靠语料与算力就可以解决问题,那自然语言任务的就可以不用做了,只交给 BAT 这样的大公司做就好了。如果你在思考如何做出有别于 BAT 的东西,怎么让计算机可以用更简单、更省力的方式做我们期望的运算,你就要取巧,而不是用蛮力,不是用强大的计算力去对决。
 
这时,我们可以使用一些处理自然语言的传统手法,来帮我们进行分词工作。
 
传统方法新启示:最大匹配和最优规划
 
我们再以“和尚未结婚的”做目标语句,看一下传统的中文自然语言方法是如何进行分词的。传统的中文分词方法主要有三种,最常见的是“字典匹配”。

正向逆向最大匹配法
 
使用字典匹配的时候,很容易在字典中匹配到“和尚”这个词,或者“和尚庙”。两个字的词可能在词典中匹配到不止一个词。比如“结婚”在词典中可能会匹配到“结婚”、“结婚典礼”、“结婚会场”……都是结婚开头。选择哪个做分词目标?传统分词会采用最大长度匹配法,也就是说拿最大长度的那个去做匹配。
 
所谓最大匹配就是,我们认为越长的词出现的几率越低,而这个长词偏偏却出现了,那就代表这个词在这里出现是有意义的。最大匹配方法可以结合深度学习模型解决一些问题。比如,在传统的字向量预测任务里,有一个很重要的任务叫做预测下一个字。你预测下一个字,而我实际的下一个字刚好就是你预测的那个,这代表是一个词的开头。
 
此外,最大匹配法还有一个重要发现:正向匹配字典的速度,比不上逆向的匹配速度。也就是说,我们用“和尚未结”去匹配,和用“结婚的”去匹配,哪一个效果更好?答案是“结婚的”。这是因为中文有一个很大的特色,重要的东西放在后面,这个和英文正好相反。比如方便面的重点在于“面”,而不是“方便”。
 
另外还有BMES最优规划。B代表的字是一个词的开头,M代表的字在词的中间,E代表的字是词的结尾,S代表的字本身就是一个词。

BMES最优规划
 
这种方法就是四个状态的分类模型。这种模型用什么做超简单?Seq2Seq(全称 Sequence to Sequence,序列到序列模型,是一种深度学习算法模型)。把一个很长的语句当做是一个序列,使用 Seq2Seq 方法去评估序列中每个字分别是这四种状态的哪一种,分词就这样完成了。
 
小结:
 
同样阅读中文,为什么人工智能不如你?
 
因为中文容易产生歧义,需要通过通过字音、字形、句法、语境来理解含义。对于哔哩哔哩弹幕这样的文本,现有的多数分词方法效果不佳。如何提高中文分词效果?用词向量等技术获取语言深层特征,用最大匹配和最优规划等传统方法改善模型。


上一篇:开发者不可错过的 10 个人工智能开源项目
下一篇:从深度学习到机器人控制 2017人工智能新开发工具盘点
精选推荐

[2017-03-21]  虽然有很多关于机器人取代工人的担心,但哈佛经济学家James Bessen的论文指出,在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

农业将为高科技行业 农业机器人的应用领域
农业将为高科技行业 农业机器人的应用领域

[2017-12-17]  农业正在迅速成为一个令人兴奋的高科技产业,吸引了新专业人士,新公司和新投资者。技术发展迅速,不仅提高了农民的生产能力,而且促进了我们所知道的机器人和自动化技术的发展。...

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来使消费者受益
改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08]  市场研究公司IHS Markit预测,到2020年,专业无人机市场将通过农业,能源和建筑等行业利用测量,制图,规划等技术实现77 1%的复合年增长率(CAGR)。与此同时,消费者无人......

哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤
哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤

[2019-11-06]  哈佛大学研究人员发表在《自然》杂志上的一项最新研究,他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂(RoboBee),这种机器人在撞墙、 ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

基于生物启发的机器人很容易适应丢失附属器官
基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17]  很多机器人被设计应用在危险环境,如灾难现场。在这些地方,他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗?也许不是,如果它们像日本的东北和北海道大学创造的......

为未来战场创造更有效的机器人 美国陆军研究人工纳米马达
为未来战场创造更有效的机器人 美国陆军研究人工纳米马达

[2019-10-11]  为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友,美国陆军研究人员正在执行一项任务,即研究肌肉分子生命功能的价值,以及复制过 ...

本周栏目热点

如何才能知道对方宣传的是伪AI? 只需问5个问题

[2017-03-15]  编者按:随着人工智能在图像识别、围棋、扑克等方面取得了重大突破,现在AI现在已经被炒上天去了。很多新推出的产品和服务都是言必称采用了 ...

AI人工智能:帮你测算恋爱的死亡日期

[2017-10-01]  AI是科技领域中的一个概念,而恋爱,是人类的一种情感。科技本身是没有情感的,因此,我们一般不会将AI与恋爱结合在一起,但是最近,由南加 ...

人工智能革命揭秘上篇(上)

[2016-03-09]   我们即将创造出一种新的生命形式,这个事件不仅是进化取得突破的标志,也有可能威胁到人类这个物种的生 ...

谷歌AI对弈围棋冠军李世石 3月9日看曹大元说棋

[2016-03-04]   3月9日,我们将迎来一场人机世纪大战!战书已升起,100万美元的奖金悬在空中。人工智能和人类大脑,究 ...

Facebook人工智能机器人生成照片以假乱真

[1970-01-01]    无论你是否认为面部识别令人毛骨悚然,很明显全球多家科技公司正在继续投资开发更强大的图像智能技术。  无论是微软的猜年龄机器人, ...