YOLOv4

YOLOv4

@AikenHong 20200726

基于YOLO v4 掌握一些CV方面训练的Trick,同时针对Typora的使用进行一个熟悉掌握。GITHUB CODE

一些相关的参考资料

⚡️https://zhuanlan.zhihu.com/p/150127712

机器之心YOLOv4

⚡️https://www.zhihu.com/question/390191723/answer/1177584901

本文中一些其他的收获

• 其他可替代的Object Detection的SOTA算法有哪些

• BoS,BoF方法

• 简直是一个Tricks的综述

Abstract

本文对近期再CNN上的一些Feature方法进行了尝试组合,并实现了新的SOTA,其实就是一些通用的**Trick**的组合尝试,包括

• 加权残差连接(WRC)

• Cross-Stage-Partial-connection,CSP

• Cross mini-Batch Normalization,CmBN


OW Object Detector

OW Object Detector

@Aiken 2021

框架撞车系列,主要看看这一篇论文中怎么解决如下的问题👇,并从中借鉴和优化的我框架设计

思路分析

Motivation

模型实现的主要的两个TASK:

  1. Open Set Learning : 在没有明确监督的时候,将尚未引入的目标类别识别为未知
  2. Incremental Learning:类别增量学习

实现这两个问题的主要思路:

  • 自动标注:借鉴RPN的class-agnostic,以及检测和分类的显著性指标的差异,找到并自动标注NewClass
  • 对比聚类:使用prototype feature来进行聚类,同时计算Distance损失
    it seems like contain a unknown prototype.
  • energy based:亥姆霍兹自由能公式?

image-20210412171723896

ENERGY BASED


Attention Mechanism
EfficientNet

EfficientNet

Tags: Paper
URL1: https://arxiv.org/pdf/1905.11946.pdf
URL2: https://arxiv.org/pdf/2104.00298.pdf

提出了一种模型缩放策略,如何更高效的平衡网络的深度、宽度、和图片分辨率
**1. Efficient Net: Rethinking Model Scaling for Convolutional Neural Networks

  1. EfficientNetV2: Smaller Models and Faster Training**

@Aiken H 2021 find detail to code his

Efficient Net V1

除了提出了缩放策略以外,还使用神经架构搜索还建立了一个新的baseline network,得到了一系列模型。

平衡网络宽度、深度、分辨率至关重要,这种平衡可以通过简单的恒定比率缩放维度来实现,于是我们提出了一种简单有效的复合缩放方法。

https://raw.githubusercontent.com/AikenH/md-image/master/img/image-20210610180603496.png

复合缩放的物理意义:输入图像更大的话就需要更多层来增加感受野和更多通道,从而能在更大的图像上捕获更多细粒度的图案,而宽度和深度(对于表达能力来说很重要)之间也存在着一定的关系,“我们”是第一个对此进行了建模的。

从各个维度单独的进行缩放能发现都存在着增益瓶颈,如何去得到这么一个合适的等比缩放增益


RL-DouZero

RL-DouZero

Desc: GAME, RL
Finished?: Yes
Tags: Paper
URL1: https://arxiv.org/abs/2106.06135
URL2: https://github.com/kwai/DouZero
URL3: https://github.com/datamllab/rlcard-showdown)

使用蒙特卡洛方法进行自我对弈不断更新预测模型的方法,这实际上也是普通人对于强化学习如何在self-play中实现自我更新的最基础的想法把:
自我对弈(记录动作序列)- 用最终的胜负(价值)更新网络。

算法的设计和思路

算法的目标是学习一个价值网路。网络的输入是当前状态和一个动作,输出是在当前状态做这个动作的期望收益(比如胜率)。简单来说,价值网络在每一步计算出哪种牌型赢的概率最大,然后选择最有可能赢的牌型。蒙特卡罗方法不断重复以下步骤来优化价值网络:

  • 用价值网络生成一场对局
  • 记录下该对局中所有的状态、动作和最后的收益(胜率)
  • 将每一对状态和动作作为网络输入,收益作为网络输出,用梯度下降对价值网络进行一次更新

其实,所谓的蒙特卡罗方法就是一种随机模拟,即通过不断的重复实验来估计真实价值。

如下图所示,斗零采用一个价值神经网络,其输入是状态和动作,输出是价值。首先,过去的出牌用 LSTM 神经网络进行编码。然后 LSTM 的输出以及其他的表征被送入了 6 层全连接网络,最后输出价值。


Pooling

Pooling

DownSampling:Pooling的全面调研

@Aiken 2021 笔记摘录:

深度神经网络中的池化方法:全面调研(1989-2020) - 知乎相同论文的简单中文Version

16页综述,共计67篇参考文献。网络千奇百怪,但基础元素却大致相同!本文全面调研了1989至2020年一些著名且有用的池化方法,并主要对20种池化方法进行了详细介绍(这些方法,你都知道么?) 注1:文末附【计算机视…

来自 https://zhuanlan.zhihu.com/p/341820742

原文:《Pooling Methods in Deep Neural Networks, a Review》

整合2

池化的根本目的(Motivation)

卷积神经网络是DNN的一种特殊类型,它由几个卷积层组成,每个卷积层后都有一个激活函数和一个池化层。

池化层是重要的层,它对来自上一层的特征图执行下采样,并生成具有简化分辨率的新feature maps 。该层极大地减小了输入的空间尺寸。 它有两个主要目的。 首先是减少参数或权重的数量,从而减少计算成本。 第二是控制网络的过拟合。

  • 池化可以增加网络对于平移(旋转,伸缩)的不变性,提升网络的泛化能力。
  • 增大感受野;
  • 降低优化难度和参数数目,

理想的池化方法应仅提取有用的信息,并丢弃无关的细节。

特征不变性、特征降维、在一定程度上防止过拟合,更方便优化


OW-openmix

OW-openmix

@Aiken 2021 究极万恶的撞车论文

Intro

Motivation :Tackle the problem of 发现无标注数据中与给定(已知)类别不相交的新类。

Related Research:

现有的方法通常1. 使用标记数据对模型进行预训练; 2. 无监督聚类在未标记的数据中识别新的类

作者认为label带来的essential knowledge在第二步中没有被充分学习利用到,这样模型就只能从第一步的现成知识中获益,而不能利用标记数据和未标记数据之间的潜在关系


Reward is Enough

Reward is Enough

Desc: RL
Finished?: Yes
Tags: Paper

通用人工智能,是否能通过强化学习的奖励机制就实现

实现AGI,强化学习就够了?Sutton、Silver师徒联手:奖励机制足够实现各种目标

对reward构建AGI的可行性的分析和探讨

这篇文章实际上没有给出一个很好的方案通过reward来实现各种AGI的设计,但是给出了在每一种场景下的AGI的reward设计的设想把。和对用reward进行设计的可行性分析。
同时分析了:感知、社交、语言、泛化、模仿,这几个方面

类似地,如果人工智能体的经验流足够丰富,那么单一目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励最大化应该足以产生一种通用人工智能。

这不久回到了最基础的问题,没有这种长线以及大量数据交互以及全面场景的经验流,来支撑这样一个AGI的学习,所以这不也是在现阶段上纸上谈兵嘛?

对这篇论文我的总结是,我不推荐详细阅读,我觉得收益有限,太理想化,其实和强化学习本身的假设也没有太多新东西,我们可以假设强化学习能带来一个AGI,但是对应的约束和限制确实是有点多了。


RL-MobaAI

RL-MobaAI

Created by: Aiken H
Desc: GAME, RL
Finished?: Yes
Tags: Paper

《Master Complex Control in MOBA Games with Deep Reinforcement Learning》 论文阅读笔记

@Aiken H 2021.06

MOBA游戏的复杂度和状态空间都远比以前的围棋之类的运动更大,所以难度会更大一些

早一些的游戏ai使用的是(2015) Deep Q-Network 通过 supervised learning and self-play 结合的训练策略在围棋上击败了专业人类,而最近更多的使用了DRL(Deep Reinforcement Learning)的方法在近几年被进一步的应用。

Neural Network Architecture Include

Contributions

  • the encoding of Multi-modal inputs 多模态输入
  • the decoupling of inter-correlations in controls 控制内关联解码
  • exploration pruning mechanism 剪枝设置
  • Action mask for efficient exploration ❓效率
  • attack attention(for target selection) Attention机制做目标选择
  • LSTM for learning skill combos LSTM 机制做技能释放和链接
  • Optimize by multi-label proximal policy algorithm(improved PPO)
    • dual-clip PPO 帮助训练的收敛


RL Notebook 01

RL Notebook 01

Created by: Aiken H
Detail: survey
Finished?: No
Tags: Paper
URL1: https://www.cnblogs.com/pinard/category/1254674.html
URL2: https://github.com/ljpzzz/machinelearning
URL3: https://datawhalechina.github.io/easy-rl/#/

Chapter1 模型基础

强化学习(一)模型基础

强化学习是介于监督和无监督学习之间的,强化学习没有输出值,但是有reward: 同时这个reward是事后给出的,而不是及时回馈的。而无监督学习是只有数据特征,同时数据之间是独立的,没有前后依赖的关系。

https://images2018.cnblogs.com/blog/1042406/201807/1042406-20180729163058011-290427357.png

Theory理论基础


经典深度学习与机器学习算法
Involution

Involution

@Aiken 2021-4-8

Ariticle Paper:star:Code; ZHIHU

Intro 引子

提出了一种新的神经网络算子(operator或op)称为involution,它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精度和效率的双重提升。

通过involution的结构设计,我们能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

基本思想

将传统Convolution Kernel 的两个基本特性:

  • 空间不变性:在同个通道的HW上共享3*3的卷积系数,参数共享;
  • 通道特异性:在每个通道上有特异的卷积核,最终使用1*1 like的方式来进行通道间的整合

反对称的修改成:

  • 空间特异性: 对每个Feature有对应size $H·W·K·K·G | G<<C$ 的kernel,特异性的对不同图像的不同部分进行处理
    • G表示Involution操作的分组数,如果需要下采样,就需要接步长为2的平均池化层,最终可以得到,实际上是一个分组卷积的方式,也就是说,我们K个一组的共享一个Kernel。用G去切分C,最终组合起来
  • 通道不变性:对每个通道之间共享这样的kernel,然后做简单的线性整合,对每个不同的channel有相同的处理方式。

传统的卷积基于邻域相关性的思想,同时旨在同一个channel中用单一的角度去分析特征,所以有空间不变性核通道特异性的这两个特征。

而Involution实际上更像是Self-Attention这种思路,通过Whole-Size的Kernel,执行一个特异性处理?

要点分析


Knowledge Evolution

Knowledge Evolution

Knowledge Evolution in Neural Networks

@Aiken 2021.4.7

Article:只能当成OverView,技术细节写的很差;Mendeley;

Code_PyTorch

Intro引子

Problem:如何在较小的数据集上训练神经网络,这到底是个小样本的方法还是个类别增量的方法?

Motivation: 考虑生物“基因”进化的方式,有一部分是“祖传”,另一部分是“适应”,通过对“祖传”的假设的不断学习进化,得到一个新的模型。

基因编码了从祖先到后代的遗传信息(知识),而基因传递将遗传信息从父母传递至其后代。虽然祖先并不一定具有更好的知识,但是遗传信息(知识)在几代人之间的发展将会促进后代更好的学习曲线。

Hypothesis:

  • 拟合假设$H^{origin}$:
  • 重置假设:$H^{later}$

TOBEUPDATE:将神经网络拆分成两个假设(子网络):通过重新训练多代网络来进化$H^{origin}$ 中的知识,每一代都会扰乱$H^{later}$的内部权重来鼓励$H^{origin}$ 学习独立的表达形式。

将深度神经网络的知识封装在一个名为拟合假设的子网络H中,将拟合假设的知识从父母网络传递至其后代,即下一代神经网络。并反复重复此过程,在后代网络中证明了其性能的显著提升:

图片

Contribution

提出了KELS(内核级卷积感知拆分),为CNN量身定做。虽然增加了训练时间,但是大大降低了推理成本,也减轻了较小数据集中的过拟合问题。


Related Word of Emotion

Related Word of Emotion

疑似

  1. M. Suwa, N. Sugie and K. Fujimora, “A Preliminary Note on Pattern Recognition of Human Emotional Expression”, Proc. Int’l Joint Conf. Pattern Recognition, pp. 408-410, 1978.

  2. K. Scherer and P. Ekman, Handbook of Methods in Nonverbal Behavior Research., 1982.

  3. J.M. Carroll and J. Russell, “Facial Expression in Hollywood’s Portrayal of Emotion”, J. Personality and Social Psychology, vol. 72, pp. 164-176, 1997.

  4. Standardization and Assessment of College Students’ Facial Expression of Emotion.

    好像是评估表情标注的,

  5. Universals and cultural differences in the judgments of facial expressions of emotion
    不同文化下的表情对应情感的认知

  6. Classifying Emotion based on Facial Expression Analysis using Gabor Filter: A Basis for Adaptive Effective Teaching Strategy

确信

  1. Facial Expression Analysis
    这篇的introduction里面有好几篇

  2. Ekman P. Facial expression and emotion[J]. American psychologist, 1993, 48(4): 384.

  3. Keltner D, Ekman P, Gonzaga G C, et al. Facial expression of emotion[J]. 2003.

    上面这两篇的引用里应该能找到特别多

  4. Xu R, Chen J, Han J, et al. Towards emotion-sensitive learning cognitive state analysis of big data in education: deep learning-based facial expression analysis using ordinal information[J]. Computing, 2019: 1-16.


GANs 01

GANs 01

fGAN 对GAN理论的深度理解

@Aiken 2021 onenote部分的拓展编写,到时候拷过去,整合在一起。

fGAN: 不只是JS-Div散度,我们可以将所有的散度都应用到GANs的框架中。该部分的阅读是对GAN的基本理论最重要的文章之一。

基本理论体系和推演

首先给出fGAN中提出的基本理论:可以将所有的Div放入GANs的框架中,来做那个核心的关键演化判别指标:

上述公式将衡量P和Q两个分布之间的差距,公式中的$f$可以是很多不同的版本,但是要求满足如下的两个条件:

  1. 是一个凸函数;$f(\frac{(x1+x2)}{2})\leq \frac{[f(x1)+f(x2)]}{2}$,需要注意国内外的凹凸相反
  2. $f(1)=0$。

而我们知道$q(x)$是概率密度分布函数,实际上可以看成凸函数性质的推广,所以我们可以证得:

显然当我们取得合适的f,KL($f(x) = xlog(x)$); ReverseKL($-log(x)$);chi square ($f(x) = (x-1)^2$);

Fenchel Conjugate共轭

补充Fenchel共轭的知识来对后续的fGAN推导进行补充,定理内容如下:


Hyper-Resolution

Hyper-Resolution

说明:重点针对超分辨率技术

备注:
超分辨率在人脸识别上的多,但是表情识别上的确实不多,不过很多都会引用一波

超分辨率在表情识别中的应用

1
2
3
4
KEY WORDs :

1. ("super resolution" OR "image restore") AND ("facial expression recognition" OR "emotion recognition")
2. ("super resolution") AND ("expression recognition")
  1. < Robust Emotion Recognition from Low Quality and Low Bit Rate Video: A Deep Learning Approach >

    • 针对于低带宽传输的分辨率不足和比率低的应用场景
    • 基于facial expression recognition 的 emotion recognition
    • 在解码器进行视频下采样的时候,联合SR和识别
  2. < Effective image super resolution via hierarchical convolutional neural network >

    • 通过层次卷积神经网络(HCNN)来实现有校的SR
    • 在facial expression recognition 中案例研究发现增强后的图像有助于提高识别性能
  3. < Spatio-temporal Pain Recognition in CNN-Based Super-Resolved Facial Images >

    • 有点擦边吧,就是基于超分辨率算法的多分辨率图像,对面部进行识别从而判断疼痛程度
    • 也可能妹啥用,你可以考虑一下
  4. < Low-resolution facial expression recognition: A filter learning perspective >

    • 摘要中没有明确的提到Super-Resolution,
    • 但是感觉低分辨率这个问题前缀,可能和SR有关系来着
  5. < PKU_ICST at TRECVID 2019: Instance Search Task >

    • 好像是什么比赛,过程中有一部分是面部表情检测
    • 在识别之前采取了超分辨率的查询增强
  6. < Facial Expression Restoration Based on Improved Graph Convolutional Networks >

    • 针对分辨率低和部分遮挡的面部表情识别
    • GAN IGCN RRMB 修复和超分辨率面部表情

Image Caption Dataset

Image Caption Dataset

Goals:

1.数据量要求
2.标注的标准
3.标注的手段

Microsoft COCO Captions:

使用Amazon的Mechanical Turk(AMT)收集数据,再对数据进行标注。
“Each of our captions are also generated using human subjects on AMT.”

一些其他信息:(Caption Evaluation Server):

好像是可以评价caption的生成质量,但是应该是仅仅针对于使用COCO数据进行的,所以这一部分就不分析了。
文中(section 3)包含了几种不同评价方法的介绍:

BLEU
ROUGE
METEOR
CIDEr

在进行Evaluation之前的 Tokenization and preprocessing中:
使用了工具来添加caption标记:

  • Stanford PTBTokenizer in Stanford CoreNLP tools (version 3.4.1)

这个工具是模仿的是peen treebank3. 其参考文献和相关链接如下:

“The Stanford CoreNLP natural language processing toolkit,” in Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2014, pp. 55–60. related-link

数据规模:


表情数据集

表情数据集

根据这次需要搜集的表情的数据集,整理一下搜索数据集的网站和思路等

PART1 “表情数据集”

下列是对数据搜集的要求:

  • 是否开源
  • 图片的大小和数量
  • 图片的采集方式

eg:ck+

==数据来源及对应的搜索结果如下:==

  1. EmotioNet

好像是一个什么挑战赛的数据集要博士后或者相应教员才能申请使用申请页面
没有具体的用于表情识别的数据子集的信息(好像数据很多,但是不知道在哪下,除了那个博士后申请的)

  1. RAF

real-world Affective Face
数据量29672个图像,7种基本情绪,12种复合情绪,(包含种族年龄范围性别属性,5个准确定位和37个自动生成的定位)
数据收集方式:来源网络,大小应该很杂 (由40个人独立标定)
email