当前训练神经网络最快的方式：AdamW优化算法+超级收敛(3)-昆明地铁网

　　更令人印象深刻的是，使用测试时间增加（即在测试集的一个图像和它四个增加数据的版本上取预测的平均值），我们可以在仅仅 18 个 epoch 内达到 94 % 的准确率（平均 93.98 %）！通过简单的 Adam 和 L2正则化，每尝试 20 次就会出现一次超过 94 % 的情况。

　　在这些比较中需要考虑的一点是，改变正则化方式会改变权重衰减或学习率的最佳值。在我们进行的测试中，L2正则化的最佳学习率为 1e-6（最大学习率为 1e-3），而权重衰减的最佳值为 0.3（学习率为 3e-3）。在我们的所有测试中，数量级的差异都是非常一致的，主要是因为 L2正则化被梯度的平均范数（相当低）有效地划分，并且 Adam 的学习率相当小（所以权重衰减的更新需要更强的系数）。

　　那么，权重衰减总是比 Adam 的 L2正则化更好？我们还没有发现明显更糟的情况，但无论是迁移学习问题（例如斯坦福汽车数据集上 Resnet50 的微调）还是 RNNs，它都没有给出更好的结果。

　　AMSGrad 是由 Sashank J. Reddi、Satyen Kale 和 Sanjiv Kumar 在近期的一篇文章中介绍的。通过分析 Adam优化器收敛的证明，他们在更新规则中发现了一个错误，该错误可能导致算法收敛到次优点。他们设计了理论实验，展示 Adam 失败的情形，并提出了一个简单的解决方案。机器之心也曾从适应性学习率算法出发分析过这一篇最佳论文：Beyond Adam。

　　我们刚刚跳过了偏差校正（对训练的开始很有用），把重心放在了主要点上。作者发现 Adam收敛证明中的错误之处在于：

　　这是我们朝着平均梯度方向迈出的一步，在训练中逐渐减少。由于学习率常常是恒定或递减的，作者提出的解决方案是通过添加另一个变量来跟踪它们的最大值，从而迫使 avg _ square 量增加。

　　AMSGrad 的结果令人非常失望。在所有实验中，我们都发现它没有丝毫帮助。即使 AMSGrad 发现的最小值有时比 Adam 达到的最小值稍低（在损失方面），其度量（准确率、f_1 分数）最终总是更糟（详见引言中的表格）。

　　Adam优化器在深度学习中收敛的证明（因为它针对凸问题）和他们在其中发现的错误对于与现实问题无关的合成实验很重要。实际测试表明，当这些 avg _ square 梯度想要减小时，这么做能得到最好的结果。

　　这表明，即使把重点放在理论上有助于获得一些新想法，也没有什么可以取代实验（而且很多实验！）以确保这些想法实际上有助于从业人员训练更好的模型。

　　从零开始训练 CIFAR10（模型是 Wide-ResNet-22，以下为五个模型的平均结果）：

　　使用 fastai 库引入的标准头对斯坦福汽车数据集上的 Resnet 50 进行微调（解冻前对头训练 20 个 epoch，并用不同的学习率训练 40 个 epoch）：

　　使用来自 GitHub（）的超参数训练 AWD LSTM（结果显示在有或没有缓存指针（cache pointer）情况下验证/测试集的困惑度）：

　　使用来自 GitHub repo 的超参数训练 QRNN（结果显示在有或没有缓存指针情况下验证/测试集的困惑度）：

　　针对这一具体任务，我们采用了 1cycle 策略的修改版本，加快了学习速度，之后长时间保持较高的恒定学习速度，然后再往下降。

昆明 > 2号线 >

当前训练神经网络最快的方式：AdamW优化算法+超级收敛(3)

最火资讯

热门频道推荐

相关功能