博弈论速成指南:那些融入深度学习的经典想法和新思路
旺道一键推广 -> 最新发布

选自TowardsDataScience

作者:Jesus Rodriguez

机器之心编译

参与:魔王、杜伟

随着人工智能的发展,博弈论迎来了复兴。关于博弈论,数据科学家需要了解哪些经典思想和新思路呢?本文作者就这些问题一一展开了分析。通过此文,相信读者会对博弈论的概念和分类有更清晰的理解。

博弈论速成指南:那些融入深度学习的经典想法和新思路

博弈论是最让人着迷的数学领域之一,它影响了多个不同领域,如经济学、社会科学、生物学,显然还有计算机科学。博弈论的定义有很多,但我认为以下这个定义非常有帮助,尽管它过分简洁:

博弈论是具备激励机制的概率。

游戏在人工智能发展过程中起到关键作用。对于初学者而言,游戏环境在强化学习或模仿学习等领域中逐渐成为流行的训练机制。理论上,任何多智能体 AI 系统都要经历玩家之间的游戏化交互。构建游戏原则的数学分支正是博弈论。在人工智能语境和深度学习系统语境下,要想使多智能体环境具备一些必备的重要能力,博弈论必不可少。在多智能体环境中,不同的 AI 程序需要交互或竞争才能达成目标。

博弈论的历史与计算机科学史密不可分。目前博弈论领域中的许多研究可以追溯至阿兰·图灵、冯·诺伊曼这些计算机科学先驱的工作。因电影《美丽心灵》而闻名于世的纳什均衡(Nash equilibrium)是现代系统中很多 AI 交互的基础。但是,利用博弈论原则多次建模 AI 宇宙超出了纳什均衡的范畴。想理解如何利用博弈论构建 AI 系统,最好先理解我们在社会或经济互动中常遇到的博弈类型

我们每天参与数百种基于游戏动态(game dynamics)的交互。但是,游戏化环境的架构与此完全不同,其激励和参与者目的也不相同。如何将这些原则应用到 AI 智能体建模中呢?这个难题推动 AI 研究某些领域的发展,如多智能体强化学习。

显然,游戏是博弈论最具可见性的实体,但它远远不是应用博弈论概念的唯一空间。也就是说,还有很多其他领域也受到博弈论和 AI 的共同影响。大多数需要多个「参与者」合作或竞争才能完成任务的场景都可以利用 AI 技术进行游戏化和改进。尽管之前的陈述是一种泛化,但我认为它传达出了一个信息:博弈论和 AI 是一种思考和建模软件系统的方式,而不只是一种技术。

利用博弈论的 AI 场景应包含不止一个参与者。例如,Salesforce Einstein 这类销售预测优化 AI 系统就不是应用博弈论原则的完美场景。但是,在多智能体环境中,博弈论又有明显不同。

在 AI 系统中建构游戏动态需要两步:


博弈论速成指南:那些融入深度学习的经典想法和新思路


  • 参与者设计:博弈论可用来优化参与者的决策,以获得最大效用;
  • 机制设计:逆博弈论(inverse game theory)主要为一组智能参与者设计游戏。拍卖就是机制设计的经典案例。

那么 AI 时代的数据科学家又需要了解哪些博弈呢?这些博弈彼此之间是否存在着联系呢?本文作者、Invector Labs 首席科学家兼执行合伙人 Jesus Rodriguez 对此发表了自己的看法。

博弈论速成指南:那些融入深度学习的经典想法和新思路

本文作者 Jesus Rodriguez。

数据科学家应该知道的 5 种博弈

假设我们正在构建一个需要多个智能体互相合作竞争才能完成特定目标的 AI 系统,即博弈论的经典场景。自 20 世纪 40 年代诞生以来,博弈论专注于建模最常见的交互模式,现在我们每天在多智能体 AI 系统中看到的就是它们。理解环境中不同类型的游戏动态是设计高效游戏化 AI 系统的关键元素。从较高层次来看,五元素标准有助于理解 AI 环境中的游戏动态,即对称 vs 非对称、完美信息 vs 非完美信息、合作 vs 非合作、同时 vs 序列和零和 vs 非零和。下面将一一展开介绍。

博弈论速成指南:那些融入深度学习的经典想法和新思路

作者提出的五元素标准。

对称 vs 非对称

最简单的一种博弈分类方式是根据对称性进行分类。在对称博弈环境里,每个玩家具备同样的目标,结果仅取决于策略。国际象棋就是一种经典的对称博弈。我们在现实世界中遇到的很多场景缺少对称的数学优雅性,因为参与者通常目标不同,甚至还存在冲突。商务谈判则属于非对称博弈,参与各方目标不同,并从不同的角度来评估结果(例如,赢得合同 vs 最小化投资)。

完美信息 vs 不完美信息

另一种重要的博弈分类方式基于可获取信息类型。完美信息博弈指每个玩家都能够看到其他玩家的行动,例如国际象棋。在很多现代交互的环境中,每个玩家的行动是对别人隐藏的,博弈论将这些场景归类为不完美信息博弈。从扑克等纸牌游戏到自动驾驶汽车,不完美游戏博弈就在我们身边。

合作 vs 非合作

在合作博弈环境中,不同的参与者可以通过结盟来最大化最终结果。合同谈判通常被认为是合作博弈。在非合作博弈环境中,参与者禁止结盟。战争是非合作博弈的终极案例。

同时 vs 序列

在序列博弈环境中,每个玩家了解对手之前的动作。棋盘游戏本质上最具序列博弈属性。在同时博弈场景中,双方可以同时行动,例如证券交易。

零和 vs 非零和

零和游戏指一方有得其他方必有失,例如棋盘游戏。非零和游戏中,多个玩家可以从其他玩家的动作中获益。经济交互中多个参与者合作扩大市场规模就是非零和博弈。

纳什均衡

对称博弈统治 AI 世界,其中大多数基于 20 世纪最著名的数学理论之一:纳什均衡。纳什均衡以美国数学家 John Forbes Nash 命名。本质上,纳什均衡描述了这样的场景:每个玩家选择一个策略,当一个玩家不改变策略时,没有玩家能从改变策略中获益。

博弈论速成指南:那些融入深度学习的经典想法和新思路

已故美国数学家、经济学家 John Nash。

纳什均衡是一个优美且强大的数学模型,它可以解决很多博弈论问题,但在一些对称博弈环境中捉襟见肘。对于初学者而言,纳什方法假设玩家具备无限的计算能力,而现实环境中几乎不存在这种情况。

此外,很多纳什均衡模型无法解释风险概念(常见于大多数非对称博弈场景,如经济市场)。因此,很多非对称博弈场景很难利用纳什均衡实现。在多智能体 AI 系统中这一点尤为重要,这需要在解决方案的数学优雅性和实现的可行性中找到合适的平衡。

博弈论中正在影响机器学习的新想法

多智能体 AI 系统是 AI 生态系统中最让人着迷的领域之一。多智能体系统等领域的近期进展扩展了博弈论的边界,它依赖该领域中最复杂的思想。作者在下文又列举了出现在现代机器学习中的博弈论子领域的示例。

平均场博弈

平均场博弈(Mean Field-Games,MFG)是博弈论中比较新的领域。MFG 理论诞生于 2006 年,是 Minyi Huang、Roland Malhamé、Peter Caines、Jean-Michel Lasry 和菲尔兹奖得主 Pierre-Louis Lions 发表的一系列独立论文中的一篇。

从概念上看,MFG 包含的方法和技术用于研究由「理性博弈方」组成的大群体下的微分博弈。这些智能体不光对自己的状态(如财富、资产)有偏好,对群体中其他智能体的分布也存在偏好。MFG 理论为这些系统研究泛化纳什均衡。

经典的案例是如何让几个鱼群以比较协调的方式沿相同方向游动。理论上,这种现象很难解释,不过它基于这一事实:鱼对最邻近鱼群的行为有反应。具体而言,每条鱼并不关心其他鱼,但是它关心附近作为一个整体统一移动的鱼群。如果我们用数学术语表述的话,鱼对鱼群的反应是哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman equation,简称 HJB 方程)。而整个鱼群的行动是所有鱼的动作集合,这对应了福克-普朗克方程(Fokker-Planck-Kolmogorov equation)。平均场博弈理论是这两个公式的结合体。

博弈论速成指南:那些融入深度学习的经典想法和新思路

平均场博弈中的鱼群统一游动经典案例。

随机博弈

随机博弈可以追溯至 1950 年代,由诺贝尔经济学奖获得者 Lloyd Shapley 提出。从概念上来看,随机博弈由有限数量的玩家在有限状态空间中执行,在每个状态中,每个玩家从有限多的动作中选择一个;最终动作组合决定了每个玩家的奖励和下一个状态的概率分布。

博弈论速成指南:那些融入深度学习的经典想法和新思路

已故数学家、随机博弈概念提出者 Lloyd Shapley。

随机博弈的经典形式是哲学家晚餐问题:有 n + 1 位哲学家 (n ≥ 1) 坐在圆桌旁,圆桌中间有一碗米饭,任意两位相邻的哲学家之间有一根筷子,筷子在两人可及范围内。由于桌子是圆的,因此筷子的数量与哲学家人数一样。为了吃到碗中的米饭,每位哲学家需要拿到可及范围内的两根筷子。如果一位科学家吃到了,那么他的两位邻座就不能同时吃到。哲学家的生活很简单,只有思考和吃饭,为了生存,哲学家必须一次次地思考和吃饭。该任务就是设计一个使所有哲学家生存下去的机制。

博弈论速成指南:那些融入深度学习的经典想法和新思路

随机博弈中的哲学家晚餐经典案例。

演化博弈

演化博弈论(Evolutionary Game Theory,EGT)从达尔文进化论中获得灵感。EGT 的起源可以追溯至 1973 年的 John Maynard Smith 和 George R. Price,也可以作为策略来分析,该数学标准可用于预测竞争策略的结果。

从概念上看,EGT 是博弈论概念在如下场景中的应用:通过选择和复制的进化过程,随着时间的变化,智能体群体使用不同策略来创建稳定的解决方案。EGT 的主要思想是很多行为涉及群体中多个智能体的交互,任意一个智能体的成果都离不开其策略与其他智能体策略之间的交互。经典博弈论专注于静态策略(即策略不随时间变化),而演化博弈论专注于策略随时间的变化,以及在进化过程中最成功的动态策略。

EGT 的经典案例是鹰鸽博弈,即让鹰和鸽子围绕可共用资源竞赛。在该游戏中,每位选手严格遵循以下策略中的一个或全部:

  • 鹰:发起攻击行为,在受伤或对手后退之前绝不停下。
  • 鸽:如果对手发起攻击行为,直接撤退。

如果我们假设存在如下情况:1)当两个个体都发起攻击行为时,战斗最终走向结束,二者具备同等受伤概率;2)战斗成本将个体的健康度降低了某个常量 C;3)当鹰鸽相遇时,鸽子直接逃跑,鹰获取资源;4)两只鸽子遇到资源并平分资源,则鹰鸽博弈的健康情况如下所示:

博弈论速成指南:那些融入深度学习的经典想法和新思路


逆博弈论

很多案例不需要优化参与者的策略,而是围绕理智参与者的行为设计游戏,这就是逆博弈论。拍卖被认为是逆博弈论中的主要案例。

总之,随着人工智能的发展,博弈论正在复兴。阿兰·图灵或冯·诺伊曼等计算机科学界传奇人物提出的博弈论原则现在已经是全球某些最智能系统的核心,人工智能近期进展也有助于推动博弈论研究的发展。随着 AI 继续进化,我们将看到更多博弈论新想法找到融入主流深度学习系统的方式。

原文链接:https://towardsdatascience.com/a-crash-course-in-game-theory-for-machine-learning-classic-and-new-ideas-50e33ba2636d

打开APP阅读全文
教育培训机构-如何策划节日招生?
做教育培训,最重要的事情莫过于招生了。面对不同的学员,招生方…于招生。目标不同,活动策划也会不一样。② 活动主题要鲜明不仅主题要鲜明,主题之间要有连续性。就像看连续剧一样,一集接一集,一环扣一环。策划好一系列活动,一个接一个来,从多个角度延续活动的宣传,突出主题,引起关注度。常用的招生方式有:体验课招…-------------想要获得更多运营技巧、doc文案,
教育培训:如何提高满班率和续班率
什么是满班率?就是实际人数除以计划招生人数,这个值就是满班率…员有流失是正常的,但要保证一个概率。在保障老学员续期的基础上,我们也要大胆创新,开设网络课程,拓宽招生区域。实地课程录制后,进一步发行到商弈云课上,通过商弈云课系统转成真实流量,网上有人点击观看,点赞,可以按点播量分佣金。助你在日常的营销推…-----------------------想要获得更多运
培训机构难盈利的问题出在哪里,如何实现盈利?
竞争白热化实地培训班、托管辅导班竞争白热化了,利润越来越稀薄…现没有多少盈利。还有一部分负责人在刚招生时,掌握了不少资金,开始盲目扩张,盲目做课程推广,以期待获得更多生源和收费,从而使培训班陷入了这种恶性循环的陷阱里。其实这些到手的钱,并不是你的利润,而是你未来要支出的钱。如遇到行业快速发展时期,或者…-----想要获得更多运营技巧、doc文件,请“关注”并“转
“差异化”经营是网络培训赚钱的关键所在
“差异化经营”这个词,相信大多数人都耳熟能详,但要做到的却是…。在现有的基础上更新升级或者资源整合就是对现有的产品或者技术,进行升级版本,或者通过一些资源整合,成一个项目。你的技能以前是用来生产或制造产品,现在是把技能升级成知识培训,转换云课堂。直白一点就是可以让老师自行录好课程并上传到学校的商弈云课…在着缺点和不足之处。在创新改革时,要从功能、服务、价格等方面
教育培训行业是如何运作的?
以前读书时,学校附近有个小摊卖鸡蛋灌饼。刚开始的时候只有一家….%,剩下的一对一和多人大班其实市场份额都很小。家长报培训班,是希望孩子能够学到知识。老师通过课上教学和课后辅导来满足孩子的需求,达到成绩提高的目标。我见过上百人的大培训班,为什么一个班这么多人?因为是名师讲课,但人太多坐后面,基本听不到重…是你的核心竞争力。想要得到用户的认同,你就必须做到产品质量好
旺道:实体店怎么做网络营销?
年纪大了,体力不好了,便赚不了什么钱了。所以,一定要在年轻的…写文案都是非常头痛的事情,那么下面我会给大家提供一个解决方案。在互联网营销系统里面有很多细节营销,软文营销就是其中一种,但好多小白头痛写文章,所以可以用这个方法也一样可以植入广告语,或者是图片广告,轮显切换广告,使用 旺道营销系统,也就是每…以帮你吸引海量精准粉丝。有了粉丝,你通过广告、产品、服务就可
旺道:圈里圈外,铁饭碗距离瓷饭碗究竟有多远?
中国人爱混圈子,从线下一直混到线上,各种奇形怪状的圈子勾勒出…不能推则敷衍了事,盼着混到主任科员退休;一种是老黄牛式,踏踏实实、兢兢业业工作,但拙于人际关系,活干得最多,但依旧不见晋升迹象;还有一种是提线木偶式,你扯一下线他动一下,好像脑子和身体是分离的。我突然一拍脑袋,这是提前衰老的迹象啊,工作内容…即使选择留在铁饭碗圈里,也应保有随时离开的思想警惕和进行必要
旺道:微信要双开了,朋友圈推广更好做了
现在手机只能登一个微信,如两个,三个微信的小伙伴们就只能退出…动推广工具、 设置头像点击头像图标,点“+”选择图片,可以上传你的企业,个人头像,产品服务等。旺道微信朋友圈广告免费朋友圈广告-旺道、 设置推广主题点“广告”,再点“+”设置推广的主题(类别),填好中文主题,以及你的网址。教你不花一分钱做朋…简直就是一劳永逸哟。如果你点开发布的文章看不到广告,那就是你
旺道:如何能让网站多个关键词排名百度首页?
最近接了一个单,做婴儿游泳馆加盟的。优化推广范围是全国,但是…泳馆加盟哪家好”、“婴儿游泳加盟多少钱”这类与我息息相关的词。如何能让网站多个关键词排名百度首页?但客户并不认同,客户说这个词指数低,或者说搜的人不多。是,这是一方面原因。但是,指数低有什么关系,你是卖产品还是卖指数。搜的人不多有什么关系,…实现广告效果最大化,来满足大众化的广告需求。对于这样的四两拔
旺道:如何成为网络营销达人?这个技能帮你节省80%的时间
在某次名师讲坛上,听到了一个让人警醒的故事。说有个村子缺水,…准的产品。现在已经不是新鲜事物,好多企业因为百度竞价的高额费用,头疼不已,所以做网站关键词优化排名,成为了企业必选的推广项目。做优化也要做到有成效,不然就是一分钱也是昂贵的。用 旺道智能机器人 就可以持续代替人工去做,它非常聪明,只要你够耐…手,设备先进,你多努力奔跑也于事无补。简单说,要去一个地方,

此文章来源来互联网,如果你有任何版权冲突,可以联络我们,微信号:WANCOME,QQ:1444641。加我们时,请说明来意,我们将优先处理你的问题。




商弈云推  | 圈广告  | 跨圈推  | 圈推广  | 圈营销
粤ICP备10213132号
旺道商标注册证号:8608864
Copyright © 2016 环企网络信息科技有限公司 版权所有