我院赵小薇副教授在Nature子刊Computational Science刊发合作演化研究重要进展

2022年10月25日  点击:[]

10月20日,最新出版的Nature子刊《Nature·Computational Science》刊发了我院赵小薇副教授与经济管理学院夏昊翔教授团队以及德国马克斯普朗克学会进化生物学研究所Christian Hilbe博士团队围绕生物界和人类社会中合作行为的产生与演化这一经典问题的重要研究进展。

生物界和人类社会中合作行为的产生与演化是备受学界关注的重大理论问题。这一问题于2005年美国《科学》杂志创刊125周年纪念专刊中被评为未来最重要的前25个科学问题之一。针对囚徒困境、公地悲剧等社会困境问题的演化博弈研究是在理论上探究合作演化机理的主要路径。通过演化博弈理论工具,学界对促进群体合作的博弈策略进行了持久研究,重要的工作进展包括20世纪80年代对TFT(一报还一报)、90年代对GTFT(宽容一报还一报)和WSLS(赢存输变)等策略的剖析。然而,这些成果尚不足以提供群体中合作行为的产生和维持的充分理论依据。TFT策略难以克服噪音对群体合作行为的干扰,WSLS策略则在应对单纯背叛策略和近年来受到很大关注的敲诈策略时表现不佳。对此,自2011年开始,赵小薇副教授参与夏昊翔教授团队对社会困境场景下的全历史策略开展持续研究,发现针对重复博弈存在能够有效区分偶然背叛和刻意剥削的简单机制,在此基础上提出“累积互惠”策略(CURE)。一系列计算机仿真实验表明,包含CURE策略的博弈群体能够在囚徒困境的完整参数区间维持稳定的合作;特别是在通常不利于合作的区域,CURE策略实现在群体中的绝对占优,从而促进群体维持近似完全合作的状态。在此基础上,团队自2019年起与Hilbe博士团队持续合作,针对社会困境博弈长记忆策略分析构建新的理论框架,证明了CURE策略的一系列基本性质,并针对典型的策略组合情景深入分析群体博弈系统的演化动力学性质,在理论上阐明CURE策略对群体合作行为的有效促进作用。进一步的扩展研究表明:CURE策略还可有效促进多人交互情景下(公地悲剧博弈)以及收益随时间变化情景下(随机社会困境博弈)合作的涌现和维持。人类行为实验显示CURE策略比现有的主流策略更为有效地解释人类实际合作行为模式。

这一研究工作在理论上构建了针对重复社会困境博弈和随机社会困境博弈中全历史记忆策略理论分析的有效框架;在合作演化问题上提出了累积互惠和累积公平的新概念,显示合作演化与公平演化的内在关联。研究工作为探索合作行为演化这一重大科学问题开拓了新的方向,成果获得了三位审稿专家一致的高度评价。其中一位匿名审稿专家认为“CURE是当前重复囚徒困境博弈的最佳策略,也是对人类互惠的最成功解释”。在应用层面,该研究工作的成果有望对国际关系战略博弈、双碳背景下气候政策的全球协同等重大现实问题的策略选择产生借鉴意义。

论文“Evolution of cooperation through cumulative reciprocity”由李娟同学(博士)、我院赵小薇副教授、李冰同学(研究生,已毕业)、Charlotte Rossetti同学(Hilbe团队博士生)、Christian Hilbe和夏昊翔教授(共同通讯暨最后作者)合作完成。

论文在线出版页面:https://www.nature.com/articles/s43588-022-00334-w)

论文阅读链接:https://rdcu.be/cXXCm

研究简报阅读链接:https://rdcu.be/cX0BE

科普:何为社会困境博弈?

囚徒困境和公地悲剧是社会困境的最典型情景。囚徒困境说明了一对个体之间互助行为面临的博弈困境。在自利的行为选择下,个体愿意接受他人的帮助而不愿意付出成本帮助他人,从而导致个人寻求对自身最优的“理性行为”无法产生对双方最优的互助行为,反而导致彼此相互背叛,从而最终自己的利益也被损害。公地悲剧则反映了群体中的个体的类似行为选择困境。个体寻求自身最优收益的行为选择导致群体利益受损并反过来最终损害个人利益。公地悲剧的现实例子包括企业减排和碳排放全球协作面临的困境局面等。囚徒困境博弈和公共品博弈等博弈模型共同反映了现实社会中大量存在的个体利益和群体(社会)利益的不一致而反过来损害个体利益的情景,这些情景下的多种博弈模型统称为社会困境博弈。

研究社会困境中的合作演化,重复囚徒困境是最为广泛使用的博弈模型,其经典策略有TFT(一报还一报)、WSLS(赢存输变)等。

TFT策略:第一步合作,以后每一步复制对手前一步的行为,即如果上一步对手合作,当前步选择合作,否则则选择背叛。

WSLS策略:第一步合作,以后每一步根据上一步博弈双方的合作背叛情况选择当前步的行为。如果上一步双方都合作或者都背叛,则当前步选择合作;如果上一步是一方合作另一方背叛,则当前步选择背叛。

以上经典策略中,博弈者的策略选择都是根据过去有限步长的博弈历史(通常是单步),这使得博弈中丢失了很多有用信息。夏昊翔团队的研究提出了分析基于全历史信息博弈的信息规约思路与数学分析框架、并提出一个简洁的利用全历史信息进行博弈的策略CURE。

CURE策略:在与对手博弈的全历史中,如果对手背叛次数与自身背叛次数的差值超过自身的宽容阈值,则选择背叛,否则维持合作。


2820F

图1 CURE策略及其对比TFT及WSLS策略的优势

17304

图2 CURE的核心特征——对任何策略维持对等

55E4F

图3 CURE及其在单步记忆策略群体中的演化优势

上一条:软件学院成功举办第五期“菁英论坛” 下一条:我院举行“智能时代的开源软件”学术沙龙

关闭