【重磅】Nature子刊 | 增强学习强化,混合脑生化鼠“走迷宫”能力大幅提升

神经科学和计算机科学的发展加强了大脑和机器之间的融合,现在可以用机械的方式对生物的感觉、记忆和运动机能进行增强或修复,科学家也做出了动物机器人和嵌入生物大脑的认知机器人。诸如此类的生物智能与人工智能相结合,使人不禁思考:这样的混合系统是否比单独的生物系统更加智能?

为了解决这个问题,浙江大学吴朝晖课题组的研究人员率先进行了这样的实验,他们使用采用了机器学习规则的计算系统增强小鼠的大脑,然后观察这样的混合系统是否在学习走迷宫的任务中具有更强的学习能力。

论文摘要:混合脑机系统的迷宫学习

摘要

推动生物智能和人工智能融合的背后主要有两股力量:一是由有意识的活体控制机械,通常是假肢;二是以电或光的方式刺激神经系统从而控制动物的行为。但就我们所知,目前还没有研究实际展示过在一个基于计算机的系统里发生的空间学习,能够影响生物成分(即大鼠)的学习和决策行为,这两种类型的智能被整合在一起,形成了一个新的智能实体。在这里,我们展示了计算组件进行的运算促成了一种新型的混合脑机系统——“生化鼠”(ratbot),在视觉和触觉(胡须)感知受阻的情况下,在学习走迷宫的任务中也展现出超强的学习能力。我们预计,我们的研究将激励其他的研究者,去探索将生物大脑的学习和记忆过程和各种规则运算及其他人工智能算法相结合,开发更加强大的生化智能系统。我们的研究发现或将对智能系统和神经康复治疗有着一系列深远的影响。

实验设计:生化鼠在没有人类干预的情况下自动学习

实验前,所有的小鼠都停水两天,经过改造,大脑植入电极并连接计算机,从而成为智能增强的生化鼠。这种生化鼠走迷宫时,计算机系统上的学习算法和规则运算会根据摄像头传来的视频输入计算 MFB 的刺激参数(电压、频率、占空比和脉冲数),从而对小鼠进行指导。实验中,生化鼠在没有人类干预的情况下自动进行学习。

每次走迷宫,生化鼠都必须在全部 6 个决策点进行正确的决策,才能在终点获得奖励(水)。每次决策时,在 6 次中有 5 次都正确,才能视为做出了正确的决策。一般需要连续走好几回才能学会一个迷宫。在一次走迷宫试验中,只要当小鼠机器人连续 3 次成功到达终点,才能被视为学会了走这一个迷宫。

实验中,计算机采用的增强算法是 Q-Learning。

实验一共设计了两种类型的生化鼠——V1 和 V2。V1 鼠的构成:研究人员在小鼠大脑的内侧前脑束(MFB)植入电极,小鼠背上的背包会接收 MFB 的刺激参数,并且往小鼠大脑输入刺激脉冲。从迷宫上方鸟瞰的摄像头会记录下小鼠的运动和方位。

V2 鼠和 V1 鼠的硬件配置一样,不过在头上多加了一台微型摄像头。这台微型摄像头会将视频信息无线传输到计算机,然后由计算机识别路标。

迷宫一共有 100 个单元,每个单元的长宽高都为 15 cm。迷宫的隔板可以移动,因此整个迷宫是可以随机自由组合的。迷宫中一共设置了 6 个决策点,这些决策点的方向可以被随机设置为向左或向右,因此一共有 64 种不同的走迷宫组合。

实验过程:混合脑机系统探索迷宫能力显著增强

研究人员首先考察了生化鼠是否能从记录下的迷宫图中提取出空间地图,并且形成 MFB 奖励规则。实验中,经过 V1 鼠在迷宫中的不断行走,计算机系统的 Q-Learning 算法生成了数字奖励地图。根据小鼠的位置和奖励地图,算法生成了实时的 MFB 刺激参数,用于指导生化鼠在迷宫中行走。当接近终点时,计算机对小鼠 MFB 的刺激会增强。

在对照组实验中,仍然带有电极的小鼠对迷宫进行探索,但是这次没有连接计算机。结果没有计算机系统增强的小鼠,在决策中表现出了大约 50% 的正确率,与随机选择相当。此外,对照组平均需要走 6 次走才能学会迷宫,比起平均在第 3 次就学会的小鼠机器人要慢了很多。

为了验证生化鼠是否学会了将学到的规则用于探索迷宫,研究人员进行了第二次试验。实验中,研究人员使用 V2 鼠,并且在迷宫中放置了 6 个路标,每个路标都指明了正确的行进方向。实验中,当 V2 鼠头上的摄像头拍摄到路标时,计算机就会向背包发送一个持续的 MFB 刺激。

结果,相比没有计算系统增强的对照组,经过增强的 V2 鼠在走迷宫时表现出了强大的学习能力,只要 2 次就能学会走迷宫(对照组需要 5 次)。即使在 V2 鼠被套上面罩以后(视觉和触觉感知受阻,小鼠基本上只能由计算机系统指导),其表现也与之前相差无几。这说明,机器智能能够弥补缺失的那部分感觉系统输入。

为了验证生化鼠能否利用学会的信息在新的迷宫中导航,研究人员进行了第三次试验。计算机利用前两次试验的结果,生成了新的规则算法——也就是说,第三次试验时,计算机的算法已经“走过了”迷宫。这一次,V2 鼠第一次走迷宫的正确率就达到了大约 80%,平均只用 2 次就能够走出迷宫,比此前的对照组水平都有了显著提升。


实验中计算机生成的迷宫图像。一旦 V1 小鼠机器人学会了走迷宫,计算机就会生成一幅地图。算法分析了 3 台 V1 小鼠机器人走迷宫的地图,生成了一个增量奖励规则:从起始单元开始,沿着正确路径目标单位 MFB 刺激的水平逐步递增。此外,其他的奖励地图也被用来验证提取的规则是否正确。第三次试验所使用的算法规则就是结合了第一次和第二次试验结果生成的。

这个工作描述了新颖的生化智能系统的实验模型,并为所述概念提供了可以验证的证据。研究所描述的生化鼠清楚地表明,混合系统在迷宫学习任务中的优良性能。研究人员表示,从大数据中学习、基于知识体系的人工智能系统构成的智能计算部件,可以用于增强生物活体大脑的功能。

这一实验表明了生物有机体和计算组件组成的混合脑机系统的巨大潜力。研究人员预期,这样的混合脑机系统可以用于提高动物机器人的学习和认知能力,也可以用于脑损伤人的康复,甚至用于帮助高强度认知负荷人群,比如士兵和宇航员。

文章转自新智元公众号,原文链接

时间: 2024-10-23 10:48:32

【重磅】Nature子刊 | 增强学习强化,混合脑生化鼠“走迷宫”能力大幅提升的相关文章

Intel发布开源增强学习框架Coach

本文讲的是Intel发布开源增强学习框架Coach, 今天,英特尔发布了一个新的开源增强学习框架Coach.该框架利用多核CPU处理能力,用于训练和评估增强学习Agent.Coach包含一些领先的增强学习算法的多线程实现,适用于各种游戏和机器人环境.它能够在台式计算机上高效地训练强化学习Agent,而无需任何额外的硬件. 自从2016年推出用于深层加强学习的异步方法以来,许多算法通过在许多CPU内核中并行运行多个实例,能够更快地实现更好的策略.到目前为止,这些算法包括A3C .DDPG.PPO.

【阿里云资讯】最前沿人工智能,助力双11搜索推荐技术再升级——深度增强学习大规模在线应用

11月12日消息,天猫"双11"销售额6分58秒破百亿:前30分钟内交易峰值17.5万笔/秒,支付峰值12万笔/秒,24小时实现销售额1207亿元.用户更快.更准购物体验来自于搜索和推荐的数据智能的提升.   去年双11期间,搜索事业部因为采用个性化推荐技术给业务带来显著提升而获得阿里巴巴最高奖"CEO奖",今年技术再度升级,规模化上线最前沿的人工智能技术深度增强学习与自适应在线学习,用户点击率提升10-20%. 阿里搜索和推荐技术负责人王志荣表示,双十一的搜索与推

增强学习小白?本文带你入门了解增强学习

更多深度文章,请关注:https://yq.aliyun.com/cloud 机器学习算法,特别是神经网络被认为是新的AI革命的起因. 在这篇文章中,我将介绍增强学习的概念,不过技术细节有限,只能使具有不同背景的读者能够理解该技术的本质.功能和局限性. 在本文末尾,我将提供一些实现RL的资源链接. 什么是增强学习? 从广义上讲,数据驱动算法可以分为三类:监督式.非监督式和增强学习. 前两个通常用于执行诸如图像分类.检测等任务,虽然它们的精确度是显著的,但这些任务不同于我们所期望的"智能"

(转) 深度增强学习与通用人工智能

    深度增强学习前沿算法思想 CSDN  作者: Flood Sung 2017-02-16 09:34:29 举报 阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至heyc@csdn.net本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>​ 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世

增强学习——马尔科夫决策过程(MDP)

增强学习--马尔科夫决策过程(MDP),最近因为研究需要,要开始学习机器学习了.之前只是懂些CNN什么的皮毛,对机器学习的整体认识都比较缺乏,后面我会从头开始一点点打基础,正好也用博客把自己的学习历程记录一下,如果有大牛看到博文中有错误,欢迎指正! 增强学习(reinforcement learning,RL)是近年来机器学习和智能控制领域的主要方法之一.在增强学习中有三个概念:状态.动作和回报. "状态(state)"是描述当前情况的.对一个正在学习行走的机器人来说,状态是它的两条腿

深度增强学习实践:让Python小程序玩一款游戏,来训练神经网络

我们这里要简要介绍一下增强学习(RL)--一种为了提高玩游戏效率的训练程序的通用技术.我们的目标是解释其实际实现:我们讲述一些基本理论,然后走马观花地看一下为玩<战舰>游戏而训练神经网络的最小python程序. 导言 增强学习[RL]技术是一种可用于提高效玩游戏效率的学习算法.与督导机器学习[ML]方法一样,增强学习是从数据--这里是指过去玩游戏的数据--中进行学习.然而,尽管督导学习算法只是根据现有的数据进行训练,但RL还挑战如何在收集数据的过程中表现良好性能.具体地说,我们所追求的设计原则

干货 | 算法工程师入门第二期——穆黎森讲增强学习(二)

雷锋网(公众号:雷锋网)按:大牛讲堂算法工程师入门系列第二期-穆黎森讲增强学习(二),上一讲内容主要涉及增强学习基本概念及Deep Q Learning的相关内容,本讲除了Deep Q Learning的相关拓展内容.DQN和近期的一些进展. 传送门:干货 | 算法工程师入门第二期--穆黎森讲增强学习(一) Beyond Deep Q Learning DQN将一个强大的工具deep neural network 引入RL,解决了这中间遇到的很多新问题,收到了很好的效果.自从这篇工作以后,一方面

中国人工智能学会通讯——增强学习是人工智能的未来 1.4 增强学习的应用

1.4 增强学习的应用 游戏人工智能 有了这些技术我们能干什么? 首先必须强调的是增强学习或者说人工智能,现在还处于婴幼儿时期.现在世界上最前沿的做增强学习的公司可能是Google的Deep Mind,他们希望把每一种电脑游戏都用增强学习求解.我们为什么要关心游戏?人在发展自己的智能过程中,是通过游戏的方法来学习的,人工智能也是,这也是为什么人工智能在学习打一些简单的游戏,一直到越来越难的游戏,最终要解决更难的问题. 高频量化交易和钱化策略 另外一个和金融相关应用的是高频量化交易.如果在股票市场

PaperWeekly 第二十五期 --- 增强学习在image caption任务上的应用

引言 第二十二期的PaperWeekly对Image Captioning进行了综述.今天这篇文章中,我们会介绍一些近期的工作.(如果你对Image Captioning这个任务不熟悉的话,请移步二十二期PaperWeekly 第二十二期---Image Caption任务综述) Image Captioning的模型一般是encoder-decoder的模型.模型对$p(S|I)$进行建模,$S$是描述,$I$是图片.模型的训练目标是最大化log似然:$\max_\theta\sum_i \l