倒立摆系统的机器人学习，加固 Learning(Q-learning)：免费源代码下载-CodeForge.cn

源代码 / 倒立摆系统的机器人学习，加固 Learning(Q-learning)：

倒立摆系统的机器人学习，加固 Learning(Q-learning)：

2016-08-23

暂无评分

其他

如何获取积分？

倒立摆系统的机器人学习，加固 Learning(Q-learning)：
在这一问题，您将应用强化学习，以自动设计堤邪教控制任务，一项政策，没有
使用过任何显性知识动力学的基础系统。我们会考虑的问题是倒立的摆或
平衡杆的问题。考虑毯所示。通过到购物车，可以在 smoothtable 的表面横向移动的免费铰链连接薄的极点。该控制器是说出故障如果任一角度极点的偏离获得超过一定数额的
垂直位置（即，如果翻倒杆），或者如果超出范围（即，如果它属于 o cart\ 的位置结束了
表）。我们的目标是要开发一个控制器来平衡杆用这些制约因素，通过适当地让那辆车
加快左和右。我们提供了一种简单的 Matlab 模拟器，针对这一问题。模拟收益在离散时间的步骤。购物车和极点在任何时候的状态完全的 4 参数来表征：小车位置 x 车速度 x_，极点的角度测量作为其偏离垂直位置及角速度的极点 _。因为它会简单地考虑
强化学习在离散状态空间中，我们有近似状态空间由映射（x ； x_ ； _）的状态向量的离散化成若干从 1 到 NUM 国家。你学习算法将需要只处理这种离散化表示的国家。
在每次一步，控制器必须选择两个操作 — — 之一推（加速）车右或手推购物车离开。（为了保持这个问题简单，那里是没有老子无为的行动。这些被表示为动作 1 和 2 分别在代码中。行动在选择时，该模拟器更新状态参数根据 ot 潜在的动力，并提供一个新的 discreteized 的状态。
我们将假设 R(s) 奖励是仅在当前状态的函数。当杆角度超出某一限额或购物车走得太远了，给出了一个消极的奖励，和系统随机是 reinitilialized。在所有其他时候，奖赏就是零。你的程序必须学会保持平衡杆只使用状态转换和观察到的奖励。
针对这一问题 les 是 hw6p1.zip。大部分的代码已被写了你，和你需要要更改只有在地方规格 control.m ed。可以运行此乐，在 Matlab，显示和绘制末尾（对数步骤失败数目的审判 # vs）的学习曲线
为了解决倒立摆系统问题，将估计的模型（即跃迁几率，
奖励）为基础的 MDP，求解