Training Strategy

2021-12-16Updated 2023-10-30Machine Learning27 minutes read (About 4090 words)

@Aiken 2020，

主要针对神经网络的训练过程中的一些基础策略的调整，比如当训练的曲线出现一定的问题的时候，我们应该怎么去调整我们训练过程中的策略。

参数调整过程中最重要的就是优化器（优化或者说是下降算法）和学习率（优化算法的核心参数），此外像是数据增强策略还是Normalization策略，都能极大的影响一个模型的好坏。

优化器

Some Material
实际上虽然有很多的优化算法，但是到最后最常用的还是 SGD+Mon 和 Adam两种：

Adam主要的有事在于自适应学习率，他对我们设计的学习率实际上没有那么敏感，但是在具体实验中往往不会有调的好的SGD那么好，只是在SGD的参数调整中会比较费劲。

但是有了根据patient调整lr的scheduler后，我们基本上可以使用SGD做一个较为简单的调整，只要设计好初始的lr的实验以及用来调整学习率的参数值。

学习率

$\omega^{n} \leftarrow \omega^{n}-\eta \frac{\partial L}{\partial \omega^{n}}$ 其中的权重就是学习率lr，

==Basic==

	学习率大	学习率小
学习速度	快	慢
使用情景	刚开始训练时	一定的次数过后
副作用	1. Loss爆炸 2.振荡	1.过拟合 2.收敛速度慢

学习率的基本设置

PyTorch Handbook 00 （Archive）

2021-12-15Updated 2023-10-30Langs / Pytorchan hour read (About 9491 words)

Basic Part基础设定部分

@AikenH 2020 + 2021

this part is about pytorch basic unit, help me to code deep learning better.

Tensor张量计算

两个tensor的数乘

Python, Pytorch

Loss-WhyZero

2021-12-10Updated 2023-10-30Machine Learning5 minutes read (About 776 words)

Loss :Why Zero Loss？

@Comments: ICML2020 《Do We Need Zero Training Loss After Achieving Zero Training Error》

@Noteby：AikenHong2021

如何解决训练损失下降，但是验证损失上升的问题（过拟合like）的问题，该文章实际上可以作为我们损失设计中的一个trick，只需要简单的一行代码，来提升代码的泛化能力；

这张图体现了本文的灵魂（思路），主要体现在我们在算法趋于稳定后继续训练可能验证损失会反而上升；

所以本文提出了一种flooding方法，当我们training loss 大于阈值的时候我们使其正常下降，当低于阈值的时候，flooding的设计会反过来使得梯度上升，让训练损失保持在flooding附近，让模型持续进行random walk，希望模型最终能优化到一个平坦的损失区域，这样发现test loss进一步的进行下降。

理解：

当我们的训练损失低到一定的程度，然后随着lr的下降，模型会很难跳出当前的极小值，这种情况下我们的泛化能力也会被限制住，采用这种方法在牺牲测试精度的同时能提升算法的泛化能力。

损失公式表示如下

$\widetilde{J}(\theta) = |J(\theta) - b| +b$

v2-084a8f00d7349a94540fc7ad3a9433b0_r

具体的代码表示只需要添加一层：

b = the flood num 
new_loss = (loss - b).abs() + b
optimizer.zero_grad()
new_loss.backward()
optimizer.step()

Machine Learning, Loss

Algorithm Sort

2021-12-06Updated 2023-10-30Algorithm3 minutes read (About 407 words)

记录各种排序操作，暂时不补充最基础的排序方式和理论，只记录排序算法的拓展应用。

在理论分析的部分主要使用cpp进行撰写，而在具体使用的时候，目前会主要按照python来进行编写，这主要是面向的场景不同决定的。

基础的排序理论，包括快排等等算法的分析在另一篇文章中记录（当初实习准备的时候有整理过，后续重新整理出来）

排序算法和理论

placeholder

排序算法应用

placeholder

同步排序

常用于Machine Learning中，将数据集中的数据和标签进行同步排序，避免打乱其中的对应关系。

使用numpy的 argsort功能来进行排序：

1
2
3

idx = np.argsort(labels)
labels = labels[idx]
datas = datas[idx,...]

Algorithm, Sort

UniFramework 01

2021-12-04Updated 2023-10-31Machine Learning30 minutes read (About 4430 words)

Here's something encrypted, password is required to continue reading.

Machine Learning, CV

Hungarian

2021-12-03Updated 2023-10-30Algorithm5 minutes read (About 717 words)

@AikenHong 2021
@Code: Scipy（repo）
@Reference: 匈牙利算法&KM算法

该篇笔记用来介绍匈牙利算法和KM算法(Kuhn-Munkres Algorithm)，这两个算法通常用来做目标之间的匹配问题。
常用于：多目标跟踪，和深度聚类中的标签匹配问题。

Method

这两种方法实际上解决的问题都是：二分图的最大匹配问题；
首先需要对二分图有个基本的了解：

二分图

实际上就是将数据分为两组，各组的每一个点都去另一个组找对应的匹配，我们希望将两组中，相关的数据尽可能的准确的匹配起来。

可以想象成，是同一个数据在不同的映射下的不同表征需要做这样的匹配关系。

解决这种问题的方式就是使用匈牙利算法或者KM算法

匈牙利算法

匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法

匈牙利算法可以将二分图中的连线，看成是我们认为可能是相同的目标（不带权值），实际上就是从上到下假想成立，然后进行唯一匹配的搜索，有点像BackTrack的过程。

整体算法的成功率或者准确率实际上十分依赖与连线的准确率，对算法输出预测的准确度要求更高。

Algorithm, Matching

Cherno的cpp教程笔记

2021-11-29Updated 2023-10-30Langs / Cpp2 hours read (About 21961 words)

this notebook is based on Cherno‘s Video Class in YouTube；if there is sth get confused，I can recheck the video which talk about it, or just google it.