aiken's blog
  • home
  • archives
  • search
  • Aiken's Blog
  • home
  • posts
  • tags
  • categories
  • archives
  • about
  • search
  • linklog
Home » Tags

RL

RL-DouZero

Desc: GAME, RL Finished?: Yes Tags: Paper URL1: https://arxiv.org/abs/2106.06135 URL2: https://github.com/kwai/DouZero URL3: https://github.com/datamllab/rlcard-showdown ) 使用蒙特卡洛方法进行自我对弈不断更新预测模型的方法,这实际上也是普通人对于强化学习如何在self-play中实现自我更新的最基础的想法把: 自我对弈(记录动作序列)- 用最终的胜负(价值)更新网络。 算法的设计和思路 算法的目标是学习一个价值网路。网络的输入是当前状态和一个动作,输出是在当前状态做这个动作的期望收益(比如胜率)。简单来说,价值网络在每一步计算出哪种牌型赢的概率最大,然后选择最有可能赢的牌型。蒙特卡罗方法不断重复以下步骤来优化价值网络: 用价值网络生成一场对局 记录下该对局中所有的状态、动作和最后的收益(胜率) 将每一对状态和动作作为网络输入,收益作为网络输出,用梯度下降对价值网络进行一次更新 其实,所谓的蒙特卡罗方法就是一种随机模拟,即通过不断的重复实验来估计真实价值。 如下图所示,斗零采用一个价值神经网络,其输入是状态和动作,输出是价值。首先,过去的出牌用 LSTM 神经网络进行编码。然后 LSTM 的输出以及其他的表征被送入了 6 层全连接网络,最后输出价值。 系统训练的主要瓶颈在于模拟数据的生成,因为每一步出牌都要对神经网络做一次前向传播。斗零采用多演员(actor)的架构,在单个 GPU 服务器上,用了 45 个演员同时产生数据,最终数据被汇集到一个中央训练器进行训练。比较有趣的是,斗零并不需要太多的计算资源,仅仅需要一个普通的四卡 GPU 服务器就能达到不错的效果。这可以让大多数实验室轻松基于作者的代码做更多的尝试。 该方法的设计和实现上听起来都挺简单的,可以找个时间自己测试一下,玩一玩这个东西,对于我来说,看看他们怎么用这个lstm去进行历史编码的,以及在对transformer了解后,看看如何用transformer去替代这样的lstm是我这边的研究重点。 蒙特卡洛方法存在的问题 蒙特卡罗方法在强化学习领域中被大多数研究者忽视。学界普遍认为蒙特卡罗方法存在两个缺点: 蒙特卡罗方法不能处理不完整的状态序列 蒙特卡罗方法有很大的方差,导致采样效率很低。 但是斗地主中,可以产生转正的状态序列,同时很容易通过并行来采集大量的样本降低方差,主要是实现上简单,但是可能也是需要大量的数据把。 蒙特卡洛方法在该任务上存在的优势 很容易对动作进行编码。斗地主的动作与动作之前是有内在联系的。以三带一为例:如果智能体打出 KKK 带 3,并因为带牌带得好得到了奖励,那么其他的牌型的价值,例如 JJJ 带 3,也能得到一定的提高。这是由于神经网络对相似的输入会预测出相似的输出。动作编码对处理斗地主庞大而复杂的动作空间非常有帮助。智能体即使没有见过某个动作,也能通过其他动作对价值作出估计。 不受过度估计(over-estimation)的影响。最常用的基于价值的强化学习方法是 DQN。但众所周知,DQN 会受过度估计的影响,即 DQN 会倾向于将价值估计得偏高,并且这个问题在动作空间很大时会尤为明显。不同于 DQN,蒙特卡罗方法直接估计价值,因此不受过度估计影响。这一点在斗地主庞大的动作空间中非常适用。 蒙特卡罗方法在稀疏奖励的情况下可能具备一定优势。在斗地主中,奖励是稀疏的,玩家需要打完整场游戏才能知道输赢。DQN 的方法通过下一个状态的价值估计当前状态的价值。这意味着奖励需要一点一点地从最后一个状态向前传播,这可能导致 DQN 更慢收敛。与之相反,蒙特卡罗方法直接预测最后一个状态的奖励,不受稀疏奖励的影响。 Reference 快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁? ...

July 6, 2021 · 1 min · 86 words · aikenhong ·  RL
#RL

Reward is Enough

Desc: RL Finished?: Yes Tags: Paper 通用人工智能,是否能通过强化学习的奖励机制就实现 实现AGI,强化学习就够了?Sutton、Silver师徒联手:奖励机制足够实现各种目标 对reward构建AGI的可行性的分析和探讨 这篇文章实际上没有给出一个很好的方案通过reward来实现各种AGI的设计,但是给出了在每一种场景下的AGI的reward设计的设想把。和对用reward进行设计的可行性分析。 同时分析了:感知、社交、语言、泛化、模仿,这几个方面 类似地,如果人工智能体的经验流足够丰富,那么单一目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励最大化应该足以产生一种通用人工智能。 这不久回到了最基础的问题,没有这种长线以及大量数据交互以及全面场景的经验流,来支撑这样一个AGI的学习,所以这不也是在现阶段上纸上谈兵嘛? 对这篇论文我的总结是,我不推荐详细阅读,我觉得收益有限,太理想化,其实和强化学习本身的假设也没有太多新东西,我们可以假设强化学习能带来一个AGI,但是对应的约束和限制确实是有点多了。

June 6, 2021 · 1 min · 14 words · aikenhong ·  RL
#RL

RL-MobaAI

Created by: Aiken H Desc: GAME, RL Finished?: Yes Tags: Paper 《Master Complex Control in MOBA Games with Deep Reinforcement Learning》 论文阅读笔记 @Aiken H 2021.06 Introduction and Related Research. MOBA游戏的复杂度和状态空间都远比以前的围棋之类的运动更大,所以难度会更大一些 早一些的游戏ai使用的是(2015) Deep Q-Network 通过 supervised learning and self-play 结合的训练策略在围棋上击败了专业人类,而最近更多的使用了DRL(Deep Reinforcement Learning)的方法在近几年被进一步的应用。 Neural Network Architecture Include Contributions the encoding of Multi-modal inputs 多模态输入 the decoupling of inter-correlations in controls 控制内关联解码 exploration pruning mechanism 剪枝设置 Action mask for efficient exploration ❓效率 attack attention(for target selection) Attention机制做目标选择 LSTM for learning skill combos LSTM 机制做技能释放和链接 Optimize by multi-label proximal policy algorithm(improved PPO) dual-clip PPO 帮助训练的收敛 present a systematic and thorough study ...

May 30, 2021 · 2 min · 279 words · aikenhong ·  RL
#RL

RL Notebook 01

Created by: Aiken H Detail: survey Finished?: No Tags: Paper URL1: https://www.cnblogs.com/pinard/category/1254674.html URL2: https://github.com/ljpzzz/machinelearning URL3: https://datawhalechina.github.io/easy-rl/#/ Chapter1 模型基础 强化学习(一)模型基础 强化学习是介于监督和无监督学习之间的,强化学习没有输出值,但是有reward: 同时这个reward是事后给出的,而不是及时回馈的。而无监督学习是只有数据特征,同时数据之间是独立的,没有前后依赖的关系。 Theory理论基础 简化模型介绍: 上面的大脑代表我们的算法执行个体,我们可以操作个体来做决策,即选择一个合适的动作(Action)At。下面的地球代表我们要研究的环境,它有自己的状态模型,我们选择了动作At后,环境的状态(State)会变,我们会发现环境状态已经变为St+1,同时我们得到了我们采取动作At的延时奖励(Reward)Rt+1。然后个体可以继续选择下一个合适的动作,然后环境的状态又会变,又有新的奖励值。。。这就是强化学习的思路。 强化学习的模型关键要素: 环境的状态S:t时刻环境的状态 $S_t$ 是它环境状态集中的某一个状态 个体的动作A:个体在某个时刻可能做出的动作集合 环境的奖励R:个体在某个时刻对应状态下做出的动作 $A_t$ 得到的奖励会在t+1时刻得到 个体的策略 $\pi$ :个体根据当前的环境选择采取动作的策略分布(函数),一般表示为一个条件概率分布的形式,概率大的动作被个体选择的概率显然更高 $$ \pi(a|s)= P(A_t = a | S_t = s) $$ 在策略 $\pi$ 和状态s采行动后的价值 $v_\pi(s)$ :一般是一个期望函数,因为我们不能每次只能选择当前的reward最大的策略,而是需要考虑大局,所以我们要有一个综合的(当前和后续)的延时奖励。 $$ v_\pi(s) = \mathbb{E}(R_{t+1} + \gamma R_{t+2} + \gamma ^2 R_{t+3} + ... |S_t = s) $$ 奖励衰减因子 $\gamma$ :也就是上式的权重,极端值考虑贪婪和一致等同,范围在[0,1] 环境的状态转移模型:也就是环境从s经过a后转化下一个状态的状态机,也可以表示为一个概率模型 $P_{ss^‘}^a$ (s→s’ , a) 探索率 $\epsilon$ :主要用于训练迭代中,我们一般选择当前价值最大的动作,但是为了搜索空间的完备,我们会用 $\epsilon$ 的概率去选择非最大价值的动作,来提升训练的鲁棒性 SUMMARY:主要介绍了强化学习模型的workflow以及其中需要考虑的8个主要参数和函数架构。最主要的机制还是Policy和reward设计这一块 ...

May 23, 2021 · 4 min · 748 words · aikenhong ·  RL
#RL
© 2025 aiken's blog Licensed under CC BY-NC 4.0 · Powered by Hugo & PaperMod Visitors: Views: