爱吧机器人网 » 技术 > 人工智能 > 正文

冷扑大师背后的AI算法和博弈论:CFR算法是核心

量子位 报道 | 公众号QbitAI

昨天下午,量子位在中关村举办了一个技术沙龙,邀请创新工场AI工程院技术VP李天放、联想智慧医疗CEO林林等,从技术和实战的角度,对德州扑克人机大战进行解读。

以下是李天放对德州扑克AI的技术解读:

文字版本整理如下:

AI算法和博弈论,这两个交叉点还是有一点难度的。

先从博弈论开始。

大家需要对GTO/纳什平衡有一个初期的理解。在德州扑克,翻硬币,剪刀石头布这类游戏里面,纳什平衡点的定义是:如果双方都在用一个比较好的战略,任何一方做出调整结果都会更糟糕,也就是存在一个平衡点,使得两个人都不能再进步。

我们用一个简单的游戏解释。

如果我们玩一手剪刀石头布,可能靠运气;玩二十万手,就要看战略是什么。如果我们想解这个问题,也是很简单,下面这个就是所谓的完美战略:

· 33%剪刀33%石头33%布

· 无论对手用什么战略,都不可能战胜我们

· 但我们也赢不了…

然而想要接近一个真正的完美战略是非常难的,大部分人有些偏好,更接近的可能是这样一个情况,对手比较笨不知道能出剪刀:

· 假设对手#1:从来不出剪刀,50%布,50%石头

· 我们的老战略有问题么?(各33%)

老战略可能还是不输的,但也不是最佳战略(GTO)。纳什平衡的意思是双方都不能改进,如果知道对手从来不出剪刀,我们的战略是能改进的。针对上面的对手#1,我们的战略可以改成:50%剪刀,50%布。

为什么不用100%布的战略?因为对方可能也调整成100%布。使用50%剪刀,50%布的战略至少可以比打平做的更好。

从博弈论来说,我们找到了对手的弱点,但没有暴露自己的弱点。也就是说,我们找到了一个新的平衡点。

这就是Libratus在做的事情。

相比于石头剪刀布,一对一的德州扑克,是一个复杂度非常高的博弈。如何找到德州扑克的GTO和纳什平衡点?这是此类AI算法的核心。

CounterFactual Regret Minimization(CFR,反事实遗憾最小化),这是一个类似强化学习的算法,但是更高效。让AI之间对战德扑,采用随机的策略,然后每局过后看看在什么地方后悔了,然后尝试不同的战略,再在决策点上复盘。

这个算法与人类学习德州类似:累积经验、评判自己的选择,但需要注意的是,这里正确的“后悔点”非常重要。德州扑克有很强的随机性,所以很容易陷入错误的学习方式。

算法很简单,问题是无限德州的空间太大了,复杂度是10的160次方。有几种解决方案:合并简化+CFR(Claudico),CFR+“直觉”(DeepStack),CFR+End Game Solver+RL(Libratus)。

总结一下:

· CFR类似于强化学习。权重调整基于概率。

· AI的战略和学习方式和职业牌手相似,但是更准确。


上一篇:人工智能威力显现 语音转化文字准确率达95%
下一篇:人工智能逆天:竟已学会种族和性别歧视
精选推荐
科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

揭秘达芬奇手术机器人
揭秘达芬奇手术机器人

[2018-04-19]  达芬奇手术系统是由美国Intuitive Surgical公司制造的机器人手术系统。美国食品和药物管理局(FDA)于2000年通过该标准,旨在利用微创手段 ...

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

亚马逊计划建一个4000万美元的机器人中心
亚马逊计划建一个4000万美元的机器人中心

[2019-11-07]  爱吧机器人网消息,亚马逊11月6日宣布了一项计划,计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

本周栏目热点

如何才能知道对方宣传的是伪AI? 只需问5个问题

[2017-03-15]  编者按:随着人工智能在图像识别、围棋、扑克等方面取得了重大突破,现在AI现在已经被炒上天去了。很多新推出的产品和服务都是言必称采用了 ...

AI人工智能:帮你测算恋爱的死亡日期

[2017-10-01]  AI是科技领域中的一个概念,而恋爱,是人类的一种情感。科技本身是没有情感的,因此,我们一般不会将AI与恋爱结合在一起,但是最近,由南加 ...

人工智能革命揭秘上篇(上)

[2016-03-09]   我们即将创造出一种新的生命形式,这个事件不仅是进化取得突破的标志,也有可能威胁到人类这个物种的生 ...

谷歌AI对弈围棋冠军李世石 3月9日看曹大元说棋

[2016-03-04]   3月9日,我们将迎来一场人机世纪大战!战书已升起,100万美元的奖金悬在空中。人工智能和人类大脑,究 ...

Facebook人工智能机器人生成照片以假乱真

[1970-01-01]    无论你是否认为面部识别令人毛骨悚然,很明显全球多家科技公司正在继续投资开发更强大的图像智能技术。  无论是微软的猜年龄机器人, ...