Machine_Learning

RL Notebook 01

Created by: Aiken H Detail: survey Finished?: No Tags: Paper URL1: https://www.cnblogs.com/pinard/category/1254674.html URL2: https://github.com/ljpzzz/machinelearning URL3: https://datawhalechina.github.io/easy-rl/#/ Chapter1 模型基础强化学习（一）模型基础强化学习是介于监督和无监督学习之间的，强化学习没有输出值，但是有reward：同时这个reward是事后给出的，而不是及时回馈的。而无监督学习是只有数据特征，同时数据之间是独立的，没有前后依赖的关系。 Theory理论基础简化模型介绍：上面的大脑代表我们的算法执行个体，我们可以操作个体来做决策，即选择一个合适的动作（Action）At。下面的地球代表我们要研究的环境,它有自己的状态模型，我们选择了动作At后，环境的状态(State)会变，我们会发现环境状态已经变为St+1,同时我们得到了我们采取动作At的延时奖励(Reward)Rt+1。然后个体可以继续选择下一个合适的动作，然后环境的状态又会变，又有新的奖励值。。。这就是强化学习的思路。强化学习的模型关键要素：环境的状态S：t时刻环境的状态 $S_t$ 是它环境状态集中的某一个状态个体的动作A：个体在某个时刻可能做出的动作集合环境的奖励R：个体在某个时刻对应状态下做出的动作 $A_t$ 得到的奖励会在t+1时刻得到个体的策略 $\pi$ ：个体根据当前的环境选择采取动作的策略分布（函数），一般表示为一个条件概率分布的形式，概率大的动作被个体选择的概率显然更高 $$ \pi(a|s)= P(A_t = a | S_t = s) $$ 在策略 $\pi$ 和状态s采行动后的价值 $v_\pi(s)$ ：一般是一个期望函数，因为我们不能每次只能选择当前的reward最大的策略，而是需要考虑大局，所以我们要有一个综合的（当前和后续）的延时奖励。 $$ v_\pi(s) = \mathbb{E}(R_{t+1} + \gamma R_{t+2} + \gamma ^2 R_{t+3} + ... |S_t = s) $$ 奖励衰减因子 $\gamma$ ：也就是上式的权重，极端值考虑贪婪和一致等同，范围在[0,1] 环境的状态转移模型：也就是环境从s经过a后转化下一个状态的状态机，也可以表示为一个概率模型 $P_{ss^‘}^a$ (s→s’ , a) 探索率 $\epsilon$ ：主要用于训练迭代中，我们一般选择当前价值最大的动作，但是为了搜索空间的完备，我们会用 $\epsilon$ 的概率去选择非最大价值的动作，来提升训练的鲁棒性 SUMMARY：主要介绍了强化学习模型的workflow以及其中需要考虑的8个主要参数和函数架构。最主要的机制还是Policy和reward设计这一块 ...

#RL

Involution

@Aiken 2021-4-8 Ariticle ；Paper ；:star:Code； ZHIHU Intro 引子提出了一种新的神经网络算子（operator或op）称为involution，它比convolution更轻量更高效，形式上比self-attention更加简洁，可以用在各种视觉任务的模型上取得精度和效率的双重提升。通过involution的结构设计，我们能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。基本思想将传统Convolution Kernel 的两个基本特性： **空间不变性：**在同个通道的HW上共享3*3的卷积系数，参数共享； **通道特异性：**在每个通道上有特异的卷积核，最终使用1*1 like的方式来进行通道间的整合反对称的修改成：空间特异性：对每个Feature有对应size $H·W·K·K·G | G«C$ 的kernel，特异性的对不同图像的不同部分进行处理 G表示Involution操作的分组数，如果需要下采样，就需要接步长为2的平均池化层，最终可以得到，实际上是一个分组卷积的方式，也就是说，我们K个一组的共享一个Kernel。用G去切分C，最终组合起来 **通道不变性：**对每个通道之间共享这样的kernel，然后做简单的线性整合，对每个不同的channel有相同的处理方式。传统的卷积基于邻域相关性的思想，同时旨在同一个channel中用单一的角度去分析特征，所以有空间不变性核通道特异性的这两个特征。而Involution实际上更像是Self-Attention这种思路，通过Whole-Size的Kernel，执行一个特异性处理？要点分析这一部分主要介绍一些实现上的技术/理论要点：生成FeatureMap对应Size的Kernel 通用的公式如下，我们可以自定义对应的Kernel生成Function，这是算法的开放性和潜力所在。 $$ \mathbf{H}_{i,j} = \phi(\mathbf{X}_{\Psi_{i,j}}) \\ \Psi_{i,j} 是邻域的一个index集合，\mathbf{X}_{\Psi_{i,j}}是包含i,j的邻域的一个patch $$ 其中可能会包含一些线性变换和通道缩减之类的变换，一种简单的实例化可以由下图来理解。对某个index，首先转化生成对应的 $K^2$ ，对应的Value，然后通过加权整合得到最终的OutputValue， Channel 数的放射就又我们的对应生成的Kernel数去控制。 ...

#ML-Backbone

Knowledge Evolution

Knowledge Evolution in Neural Networks @Aiken 2021.4.7 Article：只能当成OverView，技术细节写的很差；Mendeley； Code_PyTorch Intro引子 Problem：如何在较小的数据集上训练神经网络，这到底是个小样本的方法还是个类别增量的方法？ Motivation：考虑生物“基因”进化的方式，有一部分是“祖传”，另一部分是“适应”，通过对“祖传”的假设的不断学习进化，得到一个新的模型。基因编码了从祖先到后代的遗传信息（知识），而基因传递将遗传信息从父母传递至其后代。虽然祖先并不一定具有更好的知识，但是遗传信息（知识）在几代人之间的发展将会促进后代更好的学习曲线。 Hypothesis：拟合假设 $H^{origin}$ ：重置假设： $H^{later}$ TOBEUPDATE：将神经网络拆分成两个假设(子网络)：通过重新训练多代网络来进化 $H^{origin}$ 中的知识，每一代都会扰乱 $H^{later}$ 的内部权重来鼓励 $H^{origin}$ 学习独立的表达形式。将深度神经网络的知识封装在一个名为拟合假设的子网络H中，将拟合假设的知识从父母网络传递至其后代，即下一代神经网络。并反复重复此过程，在后代网络中证明了其性能的显著提升： Contribution：提出了KELS（内核级卷积感知拆分），为CNN量身定做。虽然增加了训练时间，但是大大降低了推理成本，也减轻了较小数据集中的过拟合问题。提出了KE，提升网络在较小数据集上的性能 KELS，训练时自动学习slim网络，支持CNN，降低推理成本 Related Work 与两种不同的训练方法作比较 DSD：在网络结构上与这种dense-sparse-dense 理论与实现细节上图展示的是普通Fliter：3in 4out ...

#Semi-SL

GANs 01

fGAN 对GAN理论的深度理解 @Aiken 2021 onenote部分的拓展编写，到时候拷过去，整合在一起。 fGAN: 不只是JS-Div散度，我们可以将所有的散度都应用到GANs的框架中。该部分的阅读是对GAN的基本理论最重要的文章之一。基本理论体系和推演首先给出fGAN中提出的基本理论：可以将所有的Div放入GANs的框架中，来做那个核心的关键演化判别指标： $$ D_{f}(P||Q) = \int_xq(x)f(\frac{p(x)}{q(x)}dx) $$ 上述公式将衡量P和Q两个分布之间的差距，公式中的 $f$ 可以是很多不同的版本，但是要求满足如下的两个条件：是一个凸函数； $f(\frac{(x1+x2)}{2})\leq \frac{[f(x1)+f(x2)]}{2}$ ，需要注意国内外的凹凸相反 $f(1)=0$ 。而我们知道 $q(x)$ 是概率密度分布函数，实际上可以看成凸函数性质的推广，所以我们可以证得： $$ D_{f}(P||Q) = \int_xq(x)f(\frac{p(x)}{q(x)}dx) \geq f(\int q(x) \frac{p(x)}{q(x)} dx) = f(1) = 0 $$ 显然当我们取得合适的f，KL（ $f(x) = xlog(x)$ ）; ReverseKL( $-log(x)$ )；chi square ( $f(x) = (x-1)^2$ )； Fenchel Conjugate共轭补充Fenchel共轭的知识来对后续的fGAN推导进行补充，定理内容如下：每个凸函数都有一个对应的共轭函数读作 $f^*(x)$ $$ f^*(x) = \max \limits_{x\in dom(f)} xt - f(x) $$ t是给定的，对于所有的变量t， $xt-f(x)$ 对应了无数条直线： ...

#GAN