RL Notebook 01
Created by: Aiken H Detail: survey Finished?: No Tags: Paper URL1: https://www.cnblogs.com/pinard/category/1254674.html URL2: https://github.com/ljpzzz/machinelearning URL3: https://datawhalechina.github.io/easy-rl/#/ Chapter1 模型基础 强化学习(一)模型基础 强化学习是介于监督和无监督学习之间的,强化学习没有输出值,但是有reward: 同时这个reward是事后给出的,而不是及时回馈的。而无监督学习是只有数据特征,同时数据之间是独立的,没有前后依赖的关系。 Theory理论基础 简化模型介绍: 上面的大脑代表我们的算法执行个体,我们可以操作个体来做决策,即选择一个合适的动作(Action)At。下面的地球代表我们要研究的环境,它有自己的状态模型,我们选择了动作At后,环境的状态(State)会变,我们会发现环境状态已经变为St+1,同时我们得到了我们采取动作At的延时奖励(Reward)Rt+1。然后个体可以继续选择下一个合适的动作,然后环境的状态又会变,又有新的奖励值。。。这就是强化学习的思路。 强化学习的模型关键要素: 环境的状态S:t时刻环境的状态 $S_t$ 是它环境状态集中的某一个状态 个体的动作A:个体在某个时刻可能做出的动作集合 环境的奖励R:个体在某个时刻对应状态下做出的动作 $A_t$ 得到的奖励会在t+1时刻得到 个体的策略 $\pi$ :个体根据当前的环境选择采取动作的策略分布(函数),一般表示为一个条件概率分布的形式,概率大的动作被个体选择的概率显然更高 $$ \pi(a|s)= P(A_t = a | S_t = s) $$ 在策略 $\pi$ 和状态s采行动后的价值 $v_\pi(s)$ :一般是一个期望函数,因为我们不能每次只能选择当前的reward最大的策略,而是需要考虑大局,所以我们要有一个综合的(当前和后续)的延时奖励。 $$ v_\pi(s) = \mathbb{E}(R_{t+1} + \gamma R_{t+2} + \gamma ^2 R_{t+3} + ... |S_t = s) $$ 奖励衰减因子 $\gamma$ :也就是上式的权重,极端值考虑贪婪和一致等同,范围在[0,1] 环境的状态转移模型:也就是环境从s经过a后转化下一个状态的状态机,也可以表示为一个概率模型 $P_{ss^‘}^a$ (s→s’ , a) 探索率 $\epsilon$ :主要用于训练迭代中,我们一般选择当前价值最大的动作,但是为了搜索空间的完备,我们会用 $\epsilon$ 的概率去选择非最大价值的动作,来提升训练的鲁棒性 SUMMARY:主要介绍了强化学习模型的workflow以及其中需要考虑的8个主要参数和函数架构。最主要的机制还是Policy和reward设计这一块 ...