ML-Backbone

Transformer

@aikenhong 2021 References For Transformer: NLP The Transformer Family (lilianweng.github.io) VIT Transformer眼中世界 VS CNN眼中世界李沐 NLP Transformer论文精读 Suveys cver1 ， cver2 ，cver3 This blog will divided into several part : lil’s blog, the survey for ViT, we using those article to help us understand the transformer. 综述我们以最新的一篇为准进行阅读，其他的可能后续进行查缺补漏把，如无必要，勿增烦恼。 Intro导言主要参考文章2来进行我们简单的导入基本问题 Transformer原本是NLP中的重要模型, 作为LSTM的后继者, 用于处理Seq2Seq的数据类型和情景, 若是要将Transformer运用到Vision的领域中, 首要的问题就是如何: 将Image作为序列化的Token输入Transform中 , 而达成这个目的主要有三种典型的方法: 像素点作为token, 使用VAE离散化图片作为token再输入 ViT: 将图片切为一个个Patch在经过线性的projector之后组成一个embedding表示进行交互 ...

#ML-Backbone

Attention Mechanism

@Aiken 2020.9.16 对基本注意力机制的一些资料和理解做一些简单的汇总，着重分析基本思想原理，应用和实现（即 structure），还有一些Weakness和相应的解决方案。 1.TODO-List：根据Lil’Log的Attention？Attention！进行初步的整理各个分类的具体含义分开整理，理解一部分整理一部分，可能结合实际的应用去整理吧。其中很重要的一点是数学分析的部分，需要对数学原理进行整理和领会。 What’s Attention In Deep Learning 在某种程度上，注意力是由我么如何关注视觉图像的不同区域或者我们如何关联同一个句子中的不同单词所启发的：针对于问题的不同，我们会对图像的某些具体的区域重视（某些区域在视觉中呈现高分辨率，而另一些则是低分辨率的情况），或者句子中的某些词重视的情况。可以解释一个句子中紧密的上下文单词之间的关系，比如我们看到eating就会期待看到food，而color对于我们来说就没有那么重要。 ...

#Machine Learning #Survey #ML-Backbone

EfficientNet

Tags: Paper URL1: https://arxiv.org/pdf/1905.11946.pdf URL2: https://arxiv.org/pdf/2104.00298.pdf 提出了一种模型缩放策略，如何更高效的平衡网络的深度、宽度、和图片分辨率 1. Efficient Net: Rethinking Model Scaling for Convolutional Neural Networks 2. EfficientNetV2: Smaller Models and Faster Training @Aiken H 2021 find detail to code his Efficient Net V1 除了提出了缩放策略以外，还使用神经架构搜索还建立了一个新的baseline network，得到了一系列模型。平衡网络宽度、深度、分辨率至关重要，这种平衡可以通过简单的恒定比率缩放维度来实现，于是我们提出了一种简单有效的复合缩放方法。复合缩放的物理意义：输入图像更大的话就需要更多层来增加感受野和更多通道，从而能在更大的图像上捕获更多细粒度的图案，而宽度和深度（对于表达能力来说很重要）之间也存在着一定的关系，“我们”是第一个对此进行了建模的。从各个维度单独的进行缩放能发现都存在着增益瓶颈，如何去得到这么一个合适的等比缩放增益 Motivation and Method 一些直观上的motivation，以及假想 ...

#ML-Backbone

Pooling

DownSampling：Pooling的全面调研 @Aiken 2021 笔记摘录：深度神经网络中的池化方法：全面调研（1989-2020） - 知乎；相同论文的简单中文Version 16页综述，共计67篇参考文献。网络千奇百怪，但基础元素却大致相同！本文全面调研了1989至2020年一些著名且有用的池化方法，并主要对20种池化方法进行了详细介绍（这些方法，你都知道么？）注1：文末附【计算机视… 来自 https://zhuanlan.zhihu.com/p/341820742 原文：《Pooling Methods in Deep Neural Networks, a Review》整合2 池化的根本目的（Motivation）卷积神经网络是DNN的一种特殊类型，它由几个卷积层组成，每个卷积层后都有一个激活函数和一个池化层。池化层是重要的层，它对来自上一层的特征图执行下采样，并生成具有简化分辨率的新feature maps 。该层极大地减小了输入的空间尺寸。它有两个主要目的。首先是减少参数或权重的数量，从而减少计算成本。第二是控制网络的过拟合。池化可以增加网络对于平移（旋转，伸缩）的不变性，提升网络的泛化能力。增大感受野；降低优化难度和参数数目，理想的池化方法应仅提取有用的信息，并丢弃无关的细节。特征不变性、特征降维、在一定程度上防止过拟合，更方便优化主流的池化方法 Average Pooling 平均池化没啥好说的，就是每个block取一个均值。如下图所示：更关注全局特征 Max Pooling 最大值池化更关注重要的局部特征 ...

#Pooling #Survey #ML-Backbone

Involution

@Aiken 2021-4-8 Ariticle ；Paper ；:star:Code； ZHIHU Intro 引子提出了一种新的神经网络算子（operator或op）称为involution，它比convolution更轻量更高效，形式上比self-attention更加简洁，可以用在各种视觉任务的模型上取得精度和效率的双重提升。通过involution的结构设计，我们能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。基本思想将传统Convolution Kernel 的两个基本特性： **空间不变性：**在同个通道的HW上共享3*3的卷积系数，参数共享； **通道特异性：**在每个通道上有特异的卷积核，最终使用1*1 like的方式来进行通道间的整合反对称的修改成：空间特异性：对每个Feature有对应size $H·W·K·K·G | G«C$ 的kernel，特异性的对不同图像的不同部分进行处理 G表示Involution操作的分组数，如果需要下采样，就需要接步长为2的平均池化层，最终可以得到，实际上是一个分组卷积的方式，也就是说，我们K个一组的共享一个Kernel。用G去切分C，最终组合起来 **通道不变性：**对每个通道之间共享这样的kernel，然后做简单的线性整合，对每个不同的channel有相同的处理方式。传统的卷积基于邻域相关性的思想，同时旨在同一个channel中用单一的角度去分析特征，所以有空间不变性核通道特异性的这两个特征。而Involution实际上更像是Self-Attention这种思路，通过Whole-Size的Kernel，执行一个特异性处理？要点分析这一部分主要介绍一些实现上的技术/理论要点：生成FeatureMap对应Size的Kernel 通用的公式如下，我们可以自定义对应的Kernel生成Function，这是算法的开放性和潜力所在。 $$ \mathbf{H}_{i,j} = \phi(\mathbf{X}_{\Psi_{i,j}}) \\ \Psi_{i,j} 是邻域的一个index集合，\mathbf{X}_{\Psi_{i,j}}是包含i,j的邻域的一个patch $$ 其中可能会包含一些线性变换和通道缩减之类的变换，一种简单的实例化可以由下图来理解。对某个index，首先转化生成对应的 $K^2$ ，对应的Value，然后通过加权整合得到最终的OutputValue， Channel 数的放射就又我们的对应生成的Kernel数去控制。 ...

#ML-Backbone