aiken's blog
  • home
  • archives
  • search
  • Aiken's Blog
  • home
  • posts
  • tags
  • categories
  • archives
  • about
  • search
  • linklog
Home » Tags

Semi-SL

SS_OD_SoftTeacher

@ Article: ICML from Microsoft & Huazhong Keda @ Code: Github @ Noteby: Aikenhong @ Time: 20210914 Abstrast and Intro in the session we will using describe the main idea of this article. 这篇文章的重点在于Soft Teacher,也就是用pseudo label做为弱标注,逐步提高伪标签的可靠性。 不同于多阶段的方法,端到端的方法再训练中逐步的提升伪标签的质量从而再去benifit目标检测的质量。 这样E2E的框架主要依赖于两部分技术: soft teacher: 每个未标记边界框的分类损失由教师网络产生的分类分数进行加权 box jitter 窗口抖动: 选择可靠的伪框来学习框回归 在目标检测上获得SOTA的效果; Multi-Stage 在半监督的情况下,关注的主要是基于伪标签的方法,是目前的SOTA,以往的方法采用多阶段的方式。 使用标记数据训练初始检测器 未标记数据的伪标记,同时基于伪标签进行重新训练 局限:初始少量标注的局限,初始的检测器的伪标签质量 End to End Soft Teacher基本思路:对未标记的图像进行标记,然后通过标记的几个伪标签训练检测器. 具体而言: 采样标注和未标注图片形成Batch 双模型:检测(student)、标记(teacher) EMA:T模型是S模型的EMA 这种方式避免了多阶段方案实现上的复杂,同时实现了飞轮效应==S、T相互加强; 此外Soft Teacher直接对学生模型生成的所有候选框进行评估,而不是使用伪框来为这些候选框进行分类回归。 这样能使用更多的直接监督信息 具体而言: 使用高阈值来分割前景,确保不会错误的将背景分类成前景,确保正伪标签的高精度; 使用可靠性度量来加权背景候选的损失; 教师模型产生的检测分数可以很好的作为可靠性度量 Box Jitter为了更可靠的训练学生网络的本地分支,指的是: 我们对前景框候选进行多次抖动 根据教师模型的位置分支对这些候选进行回归 将回归框的方差作为可靠性度量 可靠性高的用来训练 Related works Semi-Supervised Learning in Image Classification & object detection ...

October 9, 2021 · 1 min · 211 words · aikenhong ·  Semi-SL
#Semi-SL

Knowledge Evolution

Knowledge Evolution in Neural Networks @Aiken 2021.4.7 Article:只能当成OverView,技术细节写的很差 ;Mendeley; Code_PyTorch Intro引子 Problem:如何在较小的数据集上训练神经网络,这到底是个小样本的方法还是个类别增量的方法? Motivation: 考虑生物“基因”进化的方式,有一部分是“祖传”,另一部分是“适应”,通过对“祖传”的假设的不断学习进化,得到一个新的模型。 基因编码了从祖先到后代的遗传信息(知识),而基因传递将遗传信息从父母传递至其后代。虽然祖先并不一定具有更好的知识,但是遗传信息(知识)在几代人之间的发展将会促进后代更好的学习曲线。 Hypothesis: 拟合假设 $H^{origin}$ : 重置假设: $H^{later}$ TOBEUPDATE:将神经网络拆分成两个假设(子网络):通过重新训练多代网络来进化 $H^{origin}$ 中的知识,每一代都会扰乱 $H^{later}$ 的内部权重来鼓励 $H^{origin}$ 学习独立的表达形式。 将深度神经网络的知识封装在一个名为拟合假设的子网络H中,将拟合假设的知识从父母网络传递至其后代,即下一代神经网络。并反复重复此过程,在后代网络中证明了其性能的显著提升: Contribution: 提出了KELS(内核级卷积感知拆分),为CNN量身定做。虽然增加了训练时间,但是大大降低了推理成本,也减轻了较小数据集中的过拟合问题。 提出了KE,提升网络在较小数据集上的性能 KELS,训练时自动学习slim网络,支持CNN,降低推理成本 Related Work 与两种不同的训练方法作比较 DSD:在网络结构上与这种dense-sparse-dense 理论与实现细节 上图展示的是 普通Fliter:3in 4out ...

April 7, 2021 · 1 min · 94 words · aikenhong ·  Semi-SL
#Semi-SL
© 2025 aiken's blog Licensed under CC BY-NC 4.0 · Powered by Hugo & PaperMod Visitors: Views: