【重磅】Nature子刊 | 增强学习强化，混合脑生化鼠“走迷宫”能力大幅提升

神经科学和计算机科学的发展加强了大脑和机器之间的融合，现在可以用机械的方式对生物的感觉、记忆和运动机能进行增强或修复，科学家也做出了动物机器人和嵌入生物大脑的认知机器人。诸如此类的生物智能与人工智能相结合，使人不禁思考：这样的混合系统是否比单独的生物系统更加智能？

为了解决这个问题，浙江大学吴朝晖课题组的研究人员率先进行了这样的实验，他们使用采用了机器学习规则的计算系统增强小鼠的大脑，然后观察这样的混合系统是否在学习走迷宫的任务中具有更强的学习能力。

论文摘要：混合脑机系统的迷宫学习

摘要

推动生物智能和人工智能融合的背后主要有两股力量：一是由有意识的活体控制机械，通常是假肢；二是以电或光的方式刺激神经系统从而控制动物的行为。但就我们所知，目前还没有研究实际展示过在一个基于计算机的系统里发生的空间学习，能够影响生物成分（即大鼠）的学习和决策行为，这两种类型的智能被整合在一起，形成了一个新的智能实体。在这里，我们展示了计算组件进行的运算促成了一种新型的混合脑机系统——“生化鼠”（ratbot），在视觉和触觉（胡须）感知受阻的情况下，在学习走迷宫的任务中也展现出超强的学习能力。我们预计，我们的研究将激励其他的研究者，去探索将生物大脑的学习和记忆过程和各种规则运算及其他人工智能算法相结合，开发更加强大的生化智能系统。我们的研究发现或将对智能系统和神经康复治疗有着一系列深远的影响。

实验设计：生化鼠在没有人类干预的情况下自动学习

实验前，所有的小鼠都停水两天，经过改造，大脑植入电极并连接计算机，从而成为智能增强的生化鼠。这种生化鼠走迷宫时，计算机系统上的学习算法和规则运算会根据摄像头传来的视频输入计算 MFB 的刺激参数（电压、频率、占空比和脉冲数），从而对小鼠进行指导。实验中，生化鼠在没有人类干预的情况下自动进行学习。

每次走迷宫，生化鼠都必须在全部 6 个决策点进行正确的决策，才能在终点获得奖励（水）。每次决策时，在 6 次中有 5 次都正确，才能视为做出了正确的决策。一般需要连续走好几回才能学会一个迷宫。在一次走迷宫试验中，只要当小鼠机器人连续 3 次成功到达终点，才能被视为学会了走这一个迷宫。

实验中，计算机采用的增强算法是 Q-Learning。

实验一共设计了两种类型的生化鼠——V1 和 V2。V1 鼠的构成：研究人员在小鼠大脑的内侧前脑束（MFB）植入电极，小鼠背上的背包会接收 MFB 的刺激参数，并且往小鼠大脑输入刺激脉冲。从迷宫上方鸟瞰的摄像头会记录下小鼠的运动和方位。

V2 鼠和 V1 鼠的硬件配置一样，不过在头上多加了一台微型摄像头。这台微型摄像头会将视频信息无线传输到计算机，然后由计算机识别路标。

迷宫一共有 100 个单元，每个单元的长宽高都为 15 cm。迷宫的隔板可以移动，因此整个迷宫是可以随机自由组合的。迷宫中一共设置了 6 个决策点，这些决策点的方向可以被随机设置为向左或向右，因此一共有 64 种不同的走迷宫组合。

实验过程：混合脑机系统探索迷宫能力显著增强

研究人员首先考察了生化鼠是否能从记录下的迷宫图中提取出空间地图，并且形成 MFB 奖励规则。实验中，经过 V1 鼠在迷宫中的不断行走，计算机系统的 Q-Learning 算法生成了数字奖励地图。根据小鼠的位置和奖励地图，算法生成了实时的 MFB 刺激参数，用于指导生化鼠在迷宫中行走。当接近终点时，计算机对小鼠 MFB 的刺激会增强。

在对照组实验中，仍然带有电极的小鼠对迷宫进行探索，但是这次没有连接计算机。结果没有计算机系统增强的小鼠，在决策中表现出了大约 50% 的正确率，与随机选择相当。此外，对照组平均需要走 6 次走才能学会迷宫，比起平均在第 3 次就学会的小鼠机器人要慢了很多。

为了验证生化鼠是否学会了将学到的规则用于探索迷宫，研究人员进行了第二次试验。实验中，研究人员使用 V2 鼠，并且在迷宫中放置了 6 个路标，每个路标都指明了正确的行进方向。实验中，当 V2 鼠头上的摄像头拍摄到路标时，计算机就会向背包发送一个持续的 MFB 刺激。

结果，相比没有计算系统增强的对照组，经过增强的 V2 鼠在走迷宫时表现出了强大的学习能力，只要 2 次就能学会走迷宫（对照组需要 5 次）。即使在 V2 鼠被套上面罩以后（视觉和触觉感知受阻，小鼠基本上只能由计算机系统指导），其表现也与之前相差无几。这说明，机器智能能够弥补缺失的那部分感觉系统输入。

为了验证生化鼠能否利用学会的信息在新的迷宫中导航，研究人员进行了第三次试验。计算机利用前两次试验的结果，生成了新的规则算法——也就是说，第三次试验时，计算机的算法已经“走过了”迷宫。这一次，V2 鼠第一次走迷宫的正确率就达到了大约 80%，平均只用 2 次就能够走出迷宫，比此前的对照组水平都有了显著提升。

实验中计算机生成的迷宫图像。一旦 V1 小鼠机器人学会了走迷宫，计算机就会生成一幅地图。算法分析了 3 台 V1 小鼠机器人走迷宫的地图，生成了一个增量奖励规则：从起始单元开始，沿着正确路径目标单位 MFB 刺激的水平逐步递增。此外，其他的奖励地图也被用来验证提取的规则是否正确。第三次试验所使用的算法规则就是结合了第一次和第二次试验结果生成的。

这个工作描述了新颖的生化智能系统的实验模型，并为所述概念提供了可以验证的证据。研究所描述的生化鼠清楚地表明，混合系统在迷宫学习任务中的优良性能。研究人员表示，从大数据中学习、基于知识体系的人工智能系统构成的智能计算部件，可以用于增强生物活体大脑的功能。

这一实验表明了生物有机体和计算组件组成的混合脑机系统的巨大潜力。研究人员预期，这样的混合脑机系统可以用于提高动物机器人的学习和认知能力，也可以用于脑损伤人的康复，甚至用于帮助高强度认知负荷人群，比如士兵和宇航员。

文章转自新智元公众号，原文链接

时间： 2024-10-23 10:48:32

【重磅】Nature子刊 | 增强学习强化，混合脑生化鼠“走迷宫”能力大幅提升

【重磅】Nature子刊 | 增强学习强化，混合脑生化鼠“走迷宫”能力大幅提升的相关文章

Intel发布开源增强学习框架Coach

【阿里云资讯】最前沿人工智能，助力双11搜索推荐技术再升级——深度增强学习大规模在线应用

增强学习小白？本文带你入门了解增强学习

(转) 深度增强学习与通用人工智能

增强学习——马尔科夫决策过程（MDP）

深度增强学习实践：让Python小程序玩一款游戏，来训练神经网络

干货 | 算法工程师入门第二期——穆黎森讲增强学习（二）

中国人工智能学会通讯——增强学习是人工智能的未来 1.4 增强学习的应用

PaperWeekly 第二十五期 --- 增强学习在image caption任务上的应用