求助强化学习的程序实现

问题描述

RT,刚刚接触强化学习算法,想向前辈们咨询一些问题,本人学习java语言,所以求一个java编写的强化学习算法,最好是路径规划的,小菜鸟在这里先行谢过了

解决方案

解决方案二:
说的不太细致帮顶了
解决方案三:

解决方案四:
xiexie,你的动作很快,我要做强化学习算法中的Q学习,想用java编个小实例,想问问大家都没有现成的,我是初学,想先效仿一下。你是做强化算法的吗?在这个论坛里我找不到算法板块引用1楼yetaodiao的回复:

说的不太细致帮顶了

解决方案五:
这个算法大全我看过,可是它的实现只是一个排序之类的算法,我想要找个强化学习实例化的算法实现,例如:如何使智能小车沿墙运动一周等,路径规划的也可以,谢谢顶贴引用2楼yetaodiao的回复:

java算法大全

解决方案六:
该回复于2010-11-18 09:12:37被版主删除

时间: 2024-09-30 16:03:08

求助强化学习的程序实现的相关文章

详解Facebook田渊栋NIPS2017论文:让大家都能做得起深度强化学习研究的ELF平台

这周,机器学习顶级会议 NIPS 2017 的论文评审结果已经通知到各位论文作者了,许多作者都马上发 Facebook/Twitter/Blog/朋友圈分享了论文被收录的喜讯.大家的熟人 Facebook 人工智能研究院研究员田渊栋也有一篇论文入选,论文名为「ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games」.这篇论文介绍了他们构建的强化学习研究平台 ELF,为环境

【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习

AlphaGo的巨大成功掀起了围棋界三千年未有之大变局,也使得深度强化学习(Deep Reinforcement Learning)渐为大众熟悉.尤其是最新推出的AlphaGo Zero完全摒弃了人类知识,并且三天内碾压了早期版本的AlphaGo,更足显强化学习和深度学习结合的巨大威力.AlphaGo Zero的论文侧重于描述效果,对于方法的论述比较简短,没有相关背景的人读起来可能会有一些困难.本文对强化学习以及AlphaGo Zero算法做了详细描述. 摘要 AlphaGo Zero无需任何人

【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日,距离发布AlphaGo Zero论文后不到两个月,他们在arXiv上传最新论文<用通用强化学习算法自我对弈,掌握国际象棋和将棋>(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algori

(转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

  本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA   专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 2017-01-28 Yuxi Li 机器之心 选自arXiv 作者:Yuxi Li 编译:Xavier Massa.侯韵楚.吴攀     摘要   本论文将概述最近在深度强化学习(Deep Reinforcement Learning)方面喜人的进展.本文将从深度学习及强化学习的背景知识开始,包

【求助】如何修改程序运行中的数据并保存

问题描述 [求助]如何修改程序运行中的数据并保存 使用C/C++实现程序在执行时可以变更原始数据并保存,关闭以后再次执行该程序时,程序使用更改后的数据运行.(不是将修改后的数据保存在配置文件.或注册表里面.保存在原有的程序中) 解决方案 你这需求,我觉得不靠谱.一般来说都是存在加密文件的.比如xxx.db这个格式你可以自定义,但加密方法只有你知道,提取时解密即可

【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:灵培.霹雳.哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性.因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题.传统的Learning to Rank(LTR)方法主要是

引入秘密武器强化学习,发掘GAN在NLP领域的潜力

1.基础:文本生成模型的标准框架文本生成(Text Generation)通过 机器学习 + 自然语言处理 技术尝试使AI具有人类水平的语言表达能力,从一定程度上能够反应现今自然语言处理的发展水平. 下面用极简的描述介绍一下文本生成技术的大体框架,具体可以参阅各种网络文献(比如:CSDN经典Blog"好玩的文本生成"[1]),论文等. 文本生成按任务来说,比较流行的有:机器翻译.句子生成.对话生成等,本文着重讨论后面两种. 基于深度学习的Text Generator 通常使用循环神经网

汇编类问题-汇编语言求助 编写一拷贝程序,要求在命令行指定源文件名和目标文件名

问题描述 汇编语言求助 编写一拷贝程序,要求在命令行指定源文件名和目标文件名 如题 怎么搞...汇编只学了一点点,毫无头绪啊 最好有简单易懂一点的代码贴上来,求讲解思路,急求啊!

游戏开发-想学习窗体程序的编写,从启动图(图1),到界面(图2),需要学习哪些知识?

问题描述 想学习窗体程序的编写,从启动图(图1),到界面(图2),需要学习哪些知识? 试着编写一个从启动图(图1),到界面(图2)的程序,学习过c++编写程序开发-想学习窗体程序的编写,从启动图(图1),到界面(图2),需要学习哪些知识?-"> 解决方案 window窗体界面 现在流行的是MFC, C# ,Qt(delphi 和VB现在用的人少了),想学游戏开发,大概有2个方向吧,一个是平面二维游戏,一个是3D游戏 Unity引擎基础必须要学习,openGL 等图像处理技术, 解决方案二: