鱼香ROS社区
    • 版块
    • 最新
    • 未解决
    • 已解决
    • 群组
    • 注册
    • 登录
    紧急通知:禁止一切关于政治&VPN翻墙等话题,发现相关帖子会立马删除封号
    提问前必看的发帖注意事项: 社区问答规则(小鱼个人)更新 | 高质量帖子发布指南

    关于强化学习Gazebo仿真控制

    已定时 已固定 已锁定 已移动
    移动机器人制作
    深度强化学习 gazebo 仿真 运动控制
    2
    3
    715
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • 3101059743
      310105974
      最后由 编辑

      有没有大神讲解一下,在阿克曼小车仿真的时候,使用强化学习来控制小车行驶的原理是什么?能不能附加点代码来讲解一下,非常感谢。🙏 🙏

      小明小 1 条回复 最后回复 回复 引用 0
      • 小明小
        小明 ROS2开发者 @310105974
        最后由 编辑

        @310105974 简单来说,强化学习得到的是一个控制器,同样是获取感知信息,进行控制量输出,以轨迹跟踪为例:
        强化学习机器人进行跟踪控制时,通常会遵循以下过程:

        环境与机器人交互:机器人与环境进行交互,执行动作并观察环境的反馈,比如位置变化或者传感器数据。

        状态和奖励:根据观察到的环境状态,机器人会计算出当前的奖励信号,这个奖励信号可以告诉机器人它的行为是好是坏,这里的状态可以是机器的横纵向误差,角速度大小等等,根据状态定义机器人的奖励或者惩罚。

        价值函数和策略:机器人会根据观察到的奖励信号来更新其价值函数和策略,以便在类似的情况下做出更好的决策。这里的价值函数指的是在特定状态下采取某个动作的好坏程度,用于判断在当前状态下采取那个动作获得的回报最大;策略则是确定性或者呈现概率分布,定义了给定状态下应该采取的动作。

        动作选择:基于更新后的策略,机器人会选择下一个动作,并执行它。对于阿卡曼小车就是前轮转角和加速度

        奖励反馈:机器人执行动作后,环境会给予奖励反馈,机器人根据这个反馈来调整自己的策略和价值函数。

        这个过程会不断循环,直到机器人学到一个最优的策略来实现跟踪控制。

        3101059743 1 条回复 最后回复 回复 引用 0
        • 3101059743
          310105974 @小明
          最后由 编辑

          @小明 感谢大佬解答

          1 条回复 最后回复 回复 引用 0
          • 第一个帖子
            最后一个帖子
          皖ICP备16016415号-7
          Powered by NodeBB | 鱼香ROS