Posts List

深度强化学习之DQN系列

基础(Q-Learning) Q即为Q(s,a),就是在某一时刻的 s 状态下,采取动作a动作能够获得奖励的期望。环境会根据智能体的动作反馈相应的奖励 r。算法的主要思想就是将状态(state)与动作(action)构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。Q-Learning的算法如下:

深度强化学习总览

概念 强化学习的基本思想是通过最大化智能体(Agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略。强化学习中的基本要素包括:

机器学习之强化学习

强化学习是机器学习的子领域之一。智能体(Agent)通过与环境(Environment)互动,来学习采取何种行动(Action)能使其在给定环境中的奖励(Reward)最大化。