Machine_Learning

YOLOv4

@AikenHong 20200726 基于YOLO v4 掌握一些CV方面训练的Trick，同时针对Typora的使用进行一个熟悉掌握。GITHUB CODE 一些相关的参考资料 ⚡️https://zhuanlan.zhihu.com/p/150127712 ⚡ 机器之心YOLOv4 ⚡️https://www.zhihu.com/question/390191723/answer/1177584901 本文中一些其他的收获 • 其他可替代的Object Detection的SOTA算法有哪些 • BoS，BoF方法 • 简直是一个Tricks的综述 Abstract 本文对近期再CNN上的一些Feature方法进行了尝试组合，并实现了新的SOTA，其实就是一些通用的Trick的组合尝试，包括 • 加权残差连接（WRC） • Cross-Stage-Partial-connection，CSP • Cross mini-Batch Normalization，CmBN • 自对抗训练（Self-adversarial-training，SAT） • Mish 激活（Mish-activation） • Mosaic 数据增强 • DropBlock 正则化 • CIoU 损失基于该文章我们可以了解一下这些方法的主要思路和后续的应用价值。YOLOv4 更快，更准确，只需要比较小的计算需求即可 ...

#ObjectDetection

OW Object Detector

@Aiken 2021 框架撞车系列，主要看看这一篇论文中怎么解决如下的问题👇，并从中借鉴和优化的我框架设计思路分析 Motivation 模型实现的主要的两个TASK： Open Set Learning ：在没有明确监督的时候，将尚未引入的目标类别识别为未知 Incremental Learning：类别增量学习实现这两个问题的主要思路：自动标注：借鉴RPN的class-agnostic，以及检测和分类的显著性指标的差异，找到并自动标注NewClass **对比聚类：**使用prototype feature来进行聚类，同时计算Distance损失 it seems like contain a unknown prototype. **energy based：**亥姆霍兹自由能公式？ ENERGY BASED Feature： $F$ , Label: $L$ , Energy: $E(F,l)$ 能量函数倾向于将已知的类别分类到低熵的分布上，然后我们可以根据特征在能量空间上的划分来区分新类和旧类。然后我们可以根据logits表达的softmax形式，找到输出和Gibbs distribution的相关性： $$ p(l \mid \boldsymbol{f})=\frac{\exp \left(\frac{g_{l}(\boldsymbol{f})}{T}\right)}{\sum_{i=1}^{\mathrm{C}} \exp \left(\frac{g_{i}(\boldsymbol{f})}{T}\right)}=\frac{\exp \left(-\frac{E(\boldsymbol{f}, l)}{T}\right)}{\exp \left(-\frac{E(\boldsymbol{f})}{T}\right)} $$ 通过这个相关性，我们对自由能进行一个定义，以logits的形式表达 ...

#Open-World Learning

Attention Mechanism

@Aiken 2020.9.16 对基本注意力机制的一些资料和理解做一些简单的汇总，着重分析基本思想原理，应用和实现（即 structure），还有一些Weakness和相应的解决方案。 1.TODO-List：根据Lil’Log的Attention？Attention！进行初步的整理各个分类的具体含义分开整理，理解一部分整理一部分，可能结合实际的应用去整理吧。其中很重要的一点是数学分析的部分，需要对数学原理进行整理和领会。 What’s Attention In Deep Learning 在某种程度上，注意力是由我么如何关注视觉图像的不同区域或者我们如何关联同一个句子中的不同单词所启发的：针对于问题的不同，我们会对图像的某些具体的区域重视（某些区域在视觉中呈现高分辨率，而另一些则是低分辨率的情况），或者句子中的某些词重视的情况。可以解释一个句子中紧密的上下文单词之间的关系，比如我们看到eating就会期待看到food，而color对于我们来说就没有那么重要。 ...

#Machine Learning #Survey #ML-Backbone

EfficientNet

Tags: Paper URL1: https://arxiv.org/pdf/1905.11946.pdf URL2: https://arxiv.org/pdf/2104.00298.pdf 提出了一种模型缩放策略，如何更高效的平衡网络的深度、宽度、和图片分辨率 1. Efficient Net: Rethinking Model Scaling for Convolutional Neural Networks 2. EfficientNetV2: Smaller Models and Faster Training @Aiken H 2021 find detail to code his Efficient Net V1 除了提出了缩放策略以外，还使用神经架构搜索还建立了一个新的baseline network，得到了一系列模型。平衡网络宽度、深度、分辨率至关重要，这种平衡可以通过简单的恒定比率缩放维度来实现，于是我们提出了一种简单有效的复合缩放方法。复合缩放的物理意义：输入图像更大的话就需要更多层来增加感受野和更多通道，从而能在更大的图像上捕获更多细粒度的图案，而宽度和深度（对于表达能力来说很重要）之间也存在着一定的关系，“我们”是第一个对此进行了建模的。从各个维度单独的进行缩放能发现都存在着增益瓶颈，如何去得到这么一个合适的等比缩放增益 Motivation and Method 一些直观上的motivation，以及假想 ...

#ML-Backbone

Colab 使用的问题记录

@Aiken 2020 在使用Google Colab的时候会有一些常见的使用错误，然后我们记录一些常见的错误的解决方案，方便后续使用。 INDEX：命令行参数的输入问题 tensorboard的执行方法 bash # 在colab中写的时候要把前面的符号也写上 %load_ext tensorboard %tensorboard --logdir './runs' command命令的使用：包括库安装和卸载之类的。主要就是在命令前+！ bash !/opt/bin/nvidia-smi # 下面顺便解决了一下 # ImportError: cannot import name 'PILLOW_VERSION'(版本问题) !pip uninstall pillow !pip install pillow==5.2.0

#Colab #Gpu #ML-Platform

RL-DouZero

Desc: GAME, RL Finished?: Yes Tags: Paper URL1: https://arxiv.org/abs/2106.06135 URL2: https://github.com/kwai/DouZero URL3: https://github.com/datamllab/rlcard-showdown ）使用蒙特卡洛方法进行自我对弈不断更新预测模型的方法，这实际上也是普通人对于强化学习如何在self-play中实现自我更新的最基础的想法把：自我对弈（记录动作序列）- 用最终的胜负（价值）更新网络。算法的设计和思路算法的目标是学习一个价值网路。网络的输入是当前状态和一个动作，输出是在当前状态做这个动作的期望收益（比如胜率）。简单来说，价值网络在每一步计算出哪种牌型赢的概率最大，然后选择最有可能赢的牌型。蒙特卡罗方法不断重复以下步骤来优化价值网络：用价值网络生成一场对局记录下该对局中所有的状态、动作和最后的收益（胜率）将每一对状态和动作作为网络输入，收益作为网络输出，用梯度下降对价值网络进行一次更新其实，所谓的蒙特卡罗方法就是一种随机模拟，即通过不断的重复实验来估计真实价值。如下图所示，斗零采用一个价值神经网络，其输入是状态和动作，输出是价值。首先，过去的出牌用 LSTM 神经网络进行编码。然后 LSTM 的输出以及其他的表征被送入了 6 层全连接网络，最后输出价值。系统训练的主要瓶颈在于模拟数据的生成，因为每一步出牌都要对神经网络做一次前向传播。斗零采用多演员（actor）的架构，在单个 GPU 服务器上，用了 45 个演员同时产生数据，最终数据被汇集到一个中央训练器进行训练。比较有趣的是，斗零并不需要太多的计算资源，仅仅需要一个普通的四卡 GPU 服务器就能达到不错的效果。这可以让大多数实验室轻松基于作者的代码做更多的尝试。该方法的设计和实现上听起来都挺简单的，可以找个时间自己测试一下，玩一玩这个东西，对于我来说，看看他们怎么用这个lstm去进行历史编码的，以及在对transformer了解后，看看如何用transformer去替代这样的lstm是我这边的研究重点。蒙特卡洛方法存在的问题蒙特卡罗方法在强化学习领域中被大多数研究者忽视。学界普遍认为蒙特卡罗方法存在两个缺点：蒙特卡罗方法不能处理不完整的状态序列蒙特卡罗方法有很大的方差，导致采样效率很低。但是斗地主中，可以产生转正的状态序列，同时很容易通过并行来采集大量的样本降低方差，主要是实现上简单，但是可能也是需要大量的数据把。蒙特卡洛方法在该任务上存在的优势很容易对动作进行编码。斗地主的动作与动作之前是有内在联系的。以三带一为例：如果智能体打出 KKK 带 3，并因为带牌带得好得到了奖励，那么其他的牌型的价值，例如 JJJ 带 3，也能得到一定的提高。这是由于神经网络对相似的输入会预测出相似的输出。动作编码对处理斗地主庞大而复杂的动作空间非常有帮助。智能体即使没有见过某个动作，也能通过其他动作对价值作出估计。不受过度估计（over-estimation）的影响。最常用的基于价值的强化学习方法是 DQN。但众所周知，DQN 会受过度估计的影响，即 DQN 会倾向于将价值估计得偏高，并且这个问题在动作空间很大时会尤为明显。不同于 DQN，蒙特卡罗方法直接估计价值，因此不受过度估计影响。这一点在斗地主庞大的动作空间中非常适用。蒙特卡罗方法在稀疏奖励的情况下可能具备一定优势。在斗地主中，奖励是稀疏的，玩家需要打完整场游戏才能知道输赢。DQN 的方法通过下一个状态的价值估计当前状态的价值。这意味着奖励需要一点一点地从最后一个状态向前传播，这可能导致 DQN 更慢收敛。与之相反，蒙特卡罗方法直接预测最后一个状态的奖励，不受稀疏奖励的影响。 Reference 快手开源斗地主AI，入选ICML，能否干得过「冠军」柯洁？ ...

#RL

Pooling

DownSampling：Pooling的全面调研 @Aiken 2021 笔记摘录：深度神经网络中的池化方法：全面调研（1989-2020） - 知乎；相同论文的简单中文Version 16页综述，共计67篇参考文献。网络千奇百怪，但基础元素却大致相同！本文全面调研了1989至2020年一些著名且有用的池化方法，并主要对20种池化方法进行了详细介绍（这些方法，你都知道么？）注1：文末附【计算机视… 来自 https://zhuanlan.zhihu.com/p/341820742 原文：《Pooling Methods in Deep Neural Networks, a Review》整合2 池化的根本目的（Motivation）卷积神经网络是DNN的一种特殊类型，它由几个卷积层组成，每个卷积层后都有一个激活函数和一个池化层。池化层是重要的层，它对来自上一层的特征图执行下采样，并生成具有简化分辨率的新feature maps 。该层极大地减小了输入的空间尺寸。它有两个主要目的。首先是减少参数或权重的数量，从而减少计算成本。第二是控制网络的过拟合。池化可以增加网络对于平移（旋转，伸缩）的不变性，提升网络的泛化能力。增大感受野；降低优化难度和参数数目，理想的池化方法应仅提取有用的信息，并丢弃无关的细节。特征不变性、特征降维、在一定程度上防止过拟合，更方便优化主流的池化方法 Average Pooling 平均池化没啥好说的，就是每个block取一个均值。如下图所示：更关注全局特征 Max Pooling 最大值池化更关注重要的局部特征 ...

#Pooling #Survey #ML-Backbone

OW-openmix

@Aiken 2021 究极万恶的撞车论文 Intro Motivation ：Tackle the problem of 发现无标注数据中与给定（已知）类别不相交的新类。 Related Research：现有的方法通常1. 使用标记数据对模型进行预训练； 2. 无监督聚类在未标记的数据中识别新的类作者认为label带来的essential knowledge在第二步中没有被充分学习利用到，这样模型就只能从第一步的现成知识中获益，而不能利用标记数据和未标记数据之间的潜在关系 Hypothesis：有标记的类别和无标记的类别之间没有Overlap，这样导致在两个类别之间很难建立学习关系，（为啥我感觉这个说的都是屁话） Solution： Openmix：将标注的数据和未标注的数据同时混合起来得到一个联合标签的分布中，用两种方式来动态合成示例：我们混合标记和未标记数据作为Training Img，混合了已知类别的先验生成的伪标签会比无监督情况下生成的伪标签跟家的可靠？防止在错误的伪标签前提下发生过拟合在第一步的时候我们鼓励具有高类别置信度的无标记example作为可考虑的类别，然后我们将这些samples作为anchor，并将它们进一步的和无标注的samples整合，这使得我们能够对无标注数据产生更多的组合，并发现更精细的新类关系。 Detail 果然在混合的方式上和MixUp的策略进行比对了，就是diss了Mixup使用伪标签的情景可能会进一步的引入不确定性，导致算法的效果反向优化，就是再label和unlabeled数据上混用mixup，而不是单纯的对unlabel数据集进行混合。首先将没有overlap的标签表现为联合标签分布再进行混合，也就是加长onehot，这样的标签的优越性在？对于unlabelled data引入了确定性，防止标签容易过拟合。也就是给伪标签加入了一个锚定，让他能够变化的更平滑这尼玛这张图看了不久完事了，bibi一大堆啥的呢。主要分析一下三个损失函数代表的是什么意思。 ...

#Open-World Learning

Reward is Enough

Desc: RL Finished?: Yes Tags: Paper 通用人工智能，是否能通过强化学习的奖励机制就实现实现AGI，强化学习就够了？Sutton、Silver师徒联手：奖励机制足够实现各种目标对reward构建AGI的可行性的分析和探讨这篇文章实际上没有给出一个很好的方案通过reward来实现各种AGI的设计，但是给出了在每一种场景下的AGI的reward设计的设想把。和对用reward进行设计的可行性分析。同时分析了：感知、社交、语言、泛化、模仿，这几个方面类似地，如果人工智能体的经验流足够丰富，那么单一目标（例如电池寿命或生存）可能隐含地需要实现同样广泛的子目标的能力，因此奖励最大化应该足以产生一种通用人工智能。这不久回到了最基础的问题，没有这种长线以及大量数据交互以及全面场景的经验流，来支撑这样一个AGI的学习，所以这不也是在现阶段上纸上谈兵嘛？对这篇论文我的总结是，我不推荐详细阅读，我觉得收益有限，太理想化，其实和强化学习本身的假设也没有太多新东西，我们可以假设强化学习能带来一个AGI，但是对应的约束和限制确实是有点多了。

#RL

RL-MobaAI

Created by: Aiken H Desc: GAME, RL Finished?: Yes Tags: Paper 《Master Complex Control in MOBA Games with Deep Reinforcement Learning》论文阅读笔记 @Aiken H 2021.06 Introduction and Related Research. MOBA游戏的复杂度和状态空间都远比以前的围棋之类的运动更大，所以难度会更大一些早一些的游戏ai使用的是（2015） Deep Q-Network 通过 supervised learning and self-play 结合的训练策略在围棋上击败了专业人类，而最近更多的使用了DRL（Deep Reinforcement Learning）的方法在近几年被进一步的应用。 Neural Network Architecture Include Contributions the encoding of Multi-modal inputs 多模态输入 the decoupling of inter-correlations in controls 控制内关联解码 exploration pruning mechanism 剪枝设置 Action mask for efficient exploration ❓效率 attack attention(for target selection) Attention机制做目标选择 LSTM for learning skill combos LSTM 机制做技能释放和链接 Optimize by multi-label proximal policy algorithm(improved PPO) dual-clip PPO 帮助训练的收敛 present a systematic and thorough study ...

#RL