Incremental Learning

IL Collection

@AikenHong 2022 [[Draft/IL 总结]]: Thx 2 wyz to provide some clus for learnning Incremental Learning. In this Doc, we may add some related knowledge distill works which is used to design our Incremental Structure. 在这个文档中，我们可能还会添加一些知识蒸馏的相关工作的文献，这些实际上对于我的增量学习架构有一个比较大的启发 DER SPPR 没有 get 到方法到底是怎么做的 Introduction 👿 在很多视觉应用中，需要在保留旧知识的基础上学习新知识，==举个例子==，理想的情况是，我们可以保留之前学习的参数，而不发生==灾难性遗忘==，或者我们基于之前的数据进行协同训练，灾难性遗忘是 IL 中最核心的问题。 Incremental 的基本过程可以表示如下[4]： ...

#Incremental Learning #Survey

WYZ-IL-Collection

: hammer: 王耀智 Regularization 系列方法这类方法旨在添加一些正则化损失来解决 catastrophic forgetting 的问题。 Weight Regularization 这类方法一般是对网络中每个参数的重要性进行评估，根据每个参数的重要性和梯度信息更新参数。典型的文章为 EWC . PS: 这类文章我也没有读过。 Data Regularization 这类方法专注于记住特征表示，通常是结合 Hinton 的知识蒸馏损失函数使得模型记住旧类别的知识，解决 catastrophic forgetting。推荐以下几篇文章： LwF(Learning without forgetting)，这篇文章在我看来是增量学习的开山之作，第一次给增量学习找到了一个比较好的方向，也是第一次将知识蒸馏应用到增量学习上； PODNet CVPR2020 ，这篇文章最大的贡献在我看来是设计了一个全新的蒸馏损失函数，最终结果也是达到了当时的sota，甚至目前也是几个榜单的sota。 Rehearsal 系列方法这类方法主要的想法是使用一些旧类别的数据，在新类别到来时使用新旧数据一起训练模型，根据旧类别数据的真假分为以下两种方法。 Pseudo rehearsal 这类方法通常是在学习旧类别的同时，训练一个生成模型，可以生成旧的类别数据，在新类别数据到来时，生成相当数量的旧类别数据，一起训练新模型。这里推荐一篇文章：Continual learning with deep generative replay。 PS：这个小类别的论文我也没有太关注，个人不是很推荐这类方法。 Save real data 这类方法是开辟一个内存空间，空间中保存旧类别的少部分训练数据，在新类别到来时，使用内存空间的数据与新数据共同学习，按照对空间的使用方法不同可分为： Exemplar Rehearsal 这类方法是将新旧数据混合，共同作为训练数据，一起训练模型，使得模型能够保持旧类别的知识。但是在训练过程中新旧数据的类别数量是不均衡的，这也催生了我下面会说到的一大类解决方法。这种方法推荐的论文是 iCaRL，这篇论文是 exemplar rehearsal 的开山之作，第一次提出了内存空间这个概念，也提出了一个非常有效的内存选择策略(herb)，并且也是第一个使用特征作为分类依据的方法，我个人认为是继 LwF 之后又一个将 IL 推到一个新的高度的方法。 Gradient Rectification 这类方法我称之为 Gradient Rectification，其主要思路是模型每次更新的梯度由 shared gradient 和 task-specific gradient 组成。分别代表所有类别的共性信息和某一个类别的特性信息，在新类别学习时借助内存空间中的数据获得旧类别的两项梯度，在更新时对梯度进行修正，力求做到不增加共享梯度代表的损失，尽量减少类别特定梯度代表的损失。 ...

#Incremental Learning #Survey

IL-MgSvF

@Author & Paper：Arxiv @Note：Aikenhong 2021/11/12 Other’s Note 1 Intro 旧知识的缓慢忘记和新知识的快速适应的困境：主要探讨Incremental中的Old和New的相互牵制和适应的问题，旧知识的缓慢遗忘会导致对新任务的欠拟合，而快速适应会导致灾难性的遗忘，如何对这两种策略之间进行权衡，是一个重要的问题。多尺度混合的解决这个问题： Intra-space：新类别的特征在同一个特征空间中 inter-saoce：新旧类别的特征在不同的特征空间中本文提出的多粒度策略：提出了一种频率感知的正则化操作，加速空间内的增量学习能力新的特征空间组合操作，提升空间间的学习性能实际上新类和旧类的特征最好是通过自监督或者无监督的特征学习方法归化到同一个特征空间中，在这种情况下对Classifier进行调整可能是一种更好的策略。通过混合特征空间来得到一个泛化能力更高的特征表示器。传统的策略：无论是累加还是进行数据混合进行梯度计算，这种方式应该是将类别之间的梯度进行直接的叠加。是否可以自行混合不同类别之间的学习梯度？通过对梯度的下降方程求解来得到一个旧类和新类之间的更好的下降方法。具体的操作上就是对step进行处理，通过mixdataset对梯度进行分开计算在混合策略上可以考虑梯度的下降方向，对不同的维度进行加权计算？上述的策略难以实施的点在于框架中的梯度是自动计算的，我们可以对损失进行加权，但是很难重新计算不同节点之间的梯度值退而求其次的方法就是对新旧类的损失进行加权处理, 或者直接的混合数据如果我们能获取梯度的方向, 或许我们能在每次迭代的过程中获得一个更好的加权值首先可以尝试对梯度进行获取,Grad 我们在蒸馏的过程中通过MLP对不同的类别进行聚类划分, 这种方式的聚类和传统机器学习聚类的优劣又如何对比解释呢. 能不能用PCA方法或者multi-head策略来对特征进行处理, 这种类似因果的方式来分析特征中的冗余维度上述的分析基于Mix Guide make error 的想法, 实际上还有一个问题就是Feature’s capabliity 不足的问题 New Key Word： Few-Shot class-incremental Learning ...

#Incremental Learning