论文精选 | AI学习也要先定个小目标,让人工智能具有社会意识——《具有社会意识的多智能体学习:面向社会最优解》

应用场景导读:多智能体系统,例如移动传感器、无人运载器等,作为分布式人工智能研究的一个重要分支,由于其具有较强的容错性、鲁棒性和可扩展性等优点,被广泛地应用于军事、工农业生产、医学、交通、服务等各个领域。多智能体系统是由多个具有计算和移动能力的智能体所组成的集合,其中每个智能体是一个物理的或抽象的实体,能作用于自身和环境,并与其它智能体通讯。

标题:

具有社会意识的多智能体学习:面向社会最优解

摘要:

在多智能体系统中,学习能力对每个智能体来说至关重要,这关乎其在动态环境中面对未知对手时如何正常反应。从系统设计者的角度说,非常希望智能体能学会面向社会最优解的协作,同时避免被自私的对手利用。为此,我们提出一种新颖的梯度提升算法(SA-IGA),通过将社会意识纳入策略更新过程来加强基本的梯度提升算法。我们从理论上分析了基于动态系统理论的SA-IGA的学习动态,并且SA-IGA在包括对称游戏的众多游戏中都有线性动态。对两个代表游戏(“囚徒困境”游戏和协调游戏)的学习动态进行了详细分析。在SA-IGA概念的基础上,我们进一步提出一个基于Q学习更新规则的多智能体学习算法,称为SA-PGA。仿真结果表明,SA-PGA智能体相比以前面向有条件联合行动学习者(CJAL)的社会最优准则,可以获得更高的社会福利,并通过纳什均衡解决方案对独立理性对手具有可抗性。

第一作者简介:

李晓红,女,1965年9月出生,工学博士学位,天津大学计算机及信息技术系、教授,博士生导师。计算机学会高级会员,ACM会员、软件工程专委会委员;全国高等学校计算机教育研究会 常务理事;天津大学女工委员,学院工会副主席。近年来致力于安全软件工程、可信软件及信息安全领域的研究工作。

计算机学会高级会员,ACM会员、软件工程专委会委员;全国高等学校计算机教育研究会 常务理事;国家科技奖励评审专家;教育部学位与研究生教育发展中心学位论文评审、学科建设和评估咨询专家 ;《计算机学报》、《计算机科学》等杂志审稿专家;软件工程、信息安全相关领域国际期刊、国际会议审稿专家;计算机学院学位委员会委员、学术委员会委员、学科建设委员会成员、教学指导委员会委员兼秘书;学院985专家组成员兼秘书;天津大学女工委员,学院工会副主席。

近年来主持或参与完成国家级、省部级以及横向科研课题近20项,近年来已发表学术论文50余篇,其中学位与研究生教育重要期刊20多篇,国际会议20多篇,被EI检索20多篇, SCI检索6篇。申报国家发明专利20余项,已授权6项。软件著作权4项。专著1部,获省部级科技奖1项。现作为项目负责人主持国家基金重点项目1项(子课题负责人)、国家基金面上项目1项,天津市基础重点项目1项、企业合作项目1项。

via PRICAI 2016

论文原文件下载

雷锋网按: 本文由雷锋网(公众号:雷锋网)独家编译,未经许可禁止转载!

本文作者:陈杨英杰

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-31 17:22:36

论文精选 | AI学习也要先定个小目标,让人工智能具有社会意识——《具有社会意识的多智能体学习:面向社会最优解》的相关文章

想成为数据中心专家得先定个小目标

数据中心几乎涵盖到了当前所有最新的信息技术,并且这些技术仍然在不断发展之中.要想成为数据中心领域的专家,达到令人膜拜的江湖地位,就需要不断进行学习,不断拓宽自己的知识面.罗马不是一天建成的,要先定个小目标,比如:先从自己最熟悉的技术部分入手,掌握并达到精通,然后再去学习其它领域的知识.数据中心里包括有机电.供暖.建筑.制冷.网络.安全.计算.存储.监控等等海量的知识,要想成为数据中心里的全部领域专家几乎是不可能的事儿,就像万达的王建林,巨大的产业帝国也只是涵盖到房产.影业.游乐.酒店等几个行业,

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

雷锋网 AI 科技评论按:提到"强化学习",大家都知道这是一种让智能体寻找优化策略.从而与环境互动获得奖励的半监督学习方法.但是在汪军教授看来,强化学习的应用领域不止如此. 在刚刚结束的CCF-GAIR 2017大会中,来自伦敦大学学院 UCL 计算机系的汪军教授在自己的演讲 如何进行大规模多智体强化学习? - 雷锋网(公众号:雷锋网) 中提到了一类他们团队最近正在研究的环境设计问题,比如宜家希望自己店铺空间设计优化,优化目标可以是环境中不同位置的人流量平均,这样各个地方摆放的商品都可

深度强化学习、GAN与多巴胺对撞:阿里“AI 智能体”认知研讨会干货

2017年4月,阿里巴巴首次向外公布在人工智能"认知"层面上的研究成果:阿里巴巴认知计算实验室与伦敦大学学院计算机系合作,以游戏"星际争霸1"中的微观战斗场景为测试环境,深入地研究了多个 AI 智能体之间的协作难题,旨在通过协作智能解决人类不擅长的问题. 该研究引入的多智能体双向协作网络(BiCNet )可以自动学习游戏中的各种最佳策略,以使多个智能体协同作战,从无碰撞移动到基本的攻击和逃跑策略,再到复杂的掩护攻击和集中火力攻击. 据介绍,该研究在对战游戏中与其他方

对于AI+教育的重点问题,这3位人工智能专家有话说

毫无疑问,人工智能(AI)等新技术正在渗入教育行业.但究竟新技术+教育将带来哪些应用场景的改变,对此,各家公司有不同的路径和畅想. 从左到右分别为王翌.王卓和林远东 11月16日,「AI早餐汇」受邀参加以"共建丨让更好的教育来得更快"为主题的GET2017教育科技大会"人工智能论坛",几家致力AI+教育的科技公司创始人和专家悉数到场.就AI和教育结合的核心因素.AI如何驱动教育教学方式变革等热点话题给出了自己的见解. 流利说创始人兼CEO王翌:AI+教育结合的五大核

《Lua游戏AI开发指南》一2.10 智能体的属性

2.10 智能体的属性 现在已经可以创建智能体了,我们回过头来看看智能体都有哪些属性,以及它们的意义是什么. 2.10.1 朝向 每当需要返回智能体的朝向时,最简单的方法是使用前向向量,它通常代表了智能体的运动方向.朝向的左向量和上向量也可以访问到.每当你需要改变智能体的方向时,只需简单地设置它的前向向量. 1.前向轴 为了获取和设置智能体的前向向量,我们可以使用内建的GetForward和SetForward辅助函数. local forwardVector = agent:GetForwar

寒武纪3款AI处理器齐发,陈天石3年小目标:占领10亿智能AI终端;占领中国AI云端高性能芯片1/3

业界瞩目的智能芯片引领者"寒武纪"6号召开了公司成立以来的首场发布会,隆重发布旗下新一代智能处理器IP产品,并阐述公司未来芯片产品研发路线图.此次发布会由中国科学院主办,寒武纪公司承办.中国科学院科学传播局局长周德进.中国科学院计算技术研究所所长孙凝晖.联想集团高级副总裁贺志强等出席发布会并致辞,来自众多人工智能业界知名企业的代表共聚一堂,见证寒武纪科技具有里程碑意义的发布,共叙人工智能的未来图景. 中科院科学传播局局长周德进对寒武纪科技在世界人工智能发展潮流的引领上寄予厚望.他在致辞

深度增强学习实践:让Python小程序玩一款游戏,来训练神经网络

我们这里要简要介绍一下增强学习(RL)--一种为了提高玩游戏效率的训练程序的通用技术.我们的目标是解释其实际实现:我们讲述一些基本理论,然后走马观花地看一下为玩<战舰>游戏而训练神经网络的最小python程序. 导言 增强学习[RL]技术是一种可用于提高效玩游戏效率的学习算法.与督导机器学习[ML]方法一样,增强学习是从数据--这里是指过去玩游戏的数据--中进行学习.然而,尽管督导学习算法只是根据现有的数据进行训练,但RL还挑战如何在收集数据的过程中表现良好性能.具体地说,我们所追求的设计原则

目标检测101:一文带你读懂深度学习框架下的目标检测

从简单的图像分类到3D位置估算,在机器视觉领域里从来都不乏有趣的问题.其中我们最感兴趣的问题之一就是目标检测. 如同其他的机器视觉问题一样,目标检测目前为止还没有公认最好的解决方法.在了解目标检测之前,让我们先快速地了解一下这个领域里普遍存在的一些问题. 目标检测 vs 其他计算机视觉问题图像分类 在计算机视觉领域中,最为人所知的问题便是图像分类问题. 图像分类是把一幅图片分成多种类别中的一类. ImageNet是在学术界使用的最受欢迎的数据集之一,它由数百万个已分类图像组成,部分数据用于Ima

专访 Jordan 高徒 Percy Liang:如何开发连续学习的智能体

新智元:IJCAI-16大会让你感受最深的是什么?可以给我们举一两个例子吗? Liang:作为各种机器学习和自然语言处理大会的常客,我这还是第一次参加IJCAI大会.我感触最深的就是世界太大了.在IJCAI大会上,对同一个AI主题感兴趣的人有很多,而我是第一次遇到这种情况.像博弈论.逻辑编程这些主题,在IJCAI大会上得到的讨论要比在许多机器学习大会上更加全面.我一直相信,多接触其他主题有助于扩大自己的世界观,还能为自己的研究指出新方向.所以,IJCAI 大会在这方面让我很满意. 新智元:你的团