倒立摆系统的机器人学习,加固 Learning(Q-learning):
2016-08-23
0 0 0
暂无评分
其他
如何获取积分?
倒立摆系统的机器人学习,加固 Learning(Q-learning):
在这一问题,您将应用强化学习,以自动设计堤邪教控制任务,一项政策,没有
使用过任何显性知识动力学的基础系统。我们会考虑的问题是倒立的摆或
平衡杆的问题。考虑毯所示。通过到购物车,可以在 smoothtable 的表面横向移动的免费铰链连接薄的极点。该控制器是说出故障如果任一角度极点的偏离获得超过一定数额的
垂直位置 (即,如果翻倒杆),或者如果超出范围 (即,如果它属于 o cart\ 的位置结束了
表)。我们的目标是要开发一个控制器来平衡杆用这些制约因素,通过适当地让那辆车
加快左和右。我们提供了一种简单的 Matlab 模拟器,针对这一问题。模拟收益在离散时间的步骤。购物车和极点在任何时候的状态完全的 4 参数来表征: 小车位置 x 车速度 x_,极点的角度测量作为其偏离垂直位置及角速度的极点 _。因为它会简单地考虑
强化学习在离散状态空间中,我们有近似状态空间由映射 (x ; x_ ; _) 的状态向量的离散化成若干从 1 到 NUM 国家。你学习算法将需要只处理这种离散化表示的国家。
在每次一步,控制器必须选择两个操作 — — 之一推 (加速) 车右或手推购物车离开。(为了保持这个问题简单,那里是没有老子无为的行动。这些被表示为动作 1 和 2 分别在代码中。行动在选择时,该模拟器更新状态参数根据 ot 潜在的动力,并提供一个新的 discreteized 的状态。
我们将假设 R(s) 奖励是仅在当前状态的函数。当杆角度超出某一限额或购物车走得太远了,给出了一个消极的奖励,和系统随机是 reinitilialized。在所有其他时候,奖赏就是零。你的程序必须学会保持平衡杆只使用状态转换和观察到的奖励。
针对这一问题 les 是 hw6p1.zip。大部分的代码已被写了你,和你需要要更改只有在地方规格 control.m ed。可以运行此乐,在 Matlab,显示和绘制末尾 (对数步骤失败数目的审判 # vs) 的学习曲线
为了解决倒立摆系统问题,将估计的模型 (即跃迁几率,
奖励) 为基础的 MDP,求解
在这一问题,您将应用强化学习,以自动设计堤邪教控制任务,一项政策,没有
使用过任何显性知识动力学的基础系统。我们会考虑的问题是倒立的摆或
平衡杆的问题。考虑毯所示。通过到购物车,可以在 smoothtable 的表面横向移动的免费铰链连接薄的极点。该控制器是说出故障如果任一角度极点的偏离获得超过一定数额的
垂直位置 (即,如果翻倒杆),或者如果超出范围 (即,如果它属于 o cart\ 的位置结束了
表)。我们的目标是要开发一个控制器来平衡杆用这些制约因素,通过适当地让那辆车
加快左和右。我们提供了一种简单的 Matlab 模拟器,针对这一问题。模拟收益在离散时间的步骤。购物车和极点在任何时候的状态完全的 4 参数来表征: 小车位置 x 车速度 x_,极点的角度测量作为其偏离垂直位置及角速度的极点 _。因为它会简单地考虑
强化学习在离散状态空间中,我们有近似状态空间由映射 (x ; x_ ; _) 的状态向量的离散化成若干从 1 到 NUM 国家。你学习算法将需要只处理这种离散化表示的国家。
在每次一步,控制器必须选择两个操作 — — 之一推 (加速) 车右或手推购物车离开。(为了保持这个问题简单,那里是没有老子无为的行动。这些被表示为动作 1 和 2 分别在代码中。行动在选择时,该模拟器更新状态参数根据 ot 潜在的动力,并提供一个新的 discreteized 的状态。
我们将假设 R(s) 奖励是仅在当前状态的函数。当杆角度超出某一限额或购物车走得太远了,给出了一个消极的奖励,和系统随机是 reinitilialized。在所有其他时候,奖赏就是零。你的程序必须学会保持平衡杆只使用状态转换和观察到的奖励。
针对这一问题 les 是 hw6p1.zip。大部分的代码已被写了你,和你需要要更改只有在地方规格 control.m ed。可以运行此乐,在 Matlab,显示和绘制末尾 (对数步骤失败数目的审判 # vs) 的学习曲线
为了解决倒立摆系统问题,将估计的模型 (即跃迁几率,
奖励) 为基础的 MDP,求解
matlab
机器人
系统
学习
倒立
加固
LearningQlearning
相关源码推荐
GMSK线性接收机
0
0
暂无评分
NSGA-II算法
0
0
暂无评分
NSGA-III多目标优化算法
0
0
暂无评分
压缩传感示例
0
0
暂无评分
恒虚警检测器示例
0
0
暂无评分
暂无评论