学习率调度器和自适应优化器简史，及2021年最佳实践建议。

更新时间：2024-12-22 20:02:33

很久以前，在 Adam 和 Adagrad 未被发现之前，神经网络训练几乎都采用固定学习率和随机梯度下降。深度学习的崛起催生了学习率调度器和自适应优化器的概念。学习率调度器允许学习率随时间动态调整，而自适应优化器则利用模型反馈来逼近梯度。

本文探讨了学习率调度器和自适应优化器的历史。重点是周期学习率和 Adam 优化器，它们在模型优化中扮演重要角色。考虑到无法同时使用这两种技术，本文也讨论了它们之间的权衡，包括何时选择使用哪种技术。

第一个流行的学习率调度器是 ReduceLROnPlateau，它通过在模型性能停滞时降低学习率来优化收敛过程。这种方法在几乎所有场景中都能提高一两个百分点的性能。然而，自适应优化器如 Adam 在模型性能和参数管理上提供了显著优势。

Adam 优化器通过自适应地为每个权重分配学习率，避免了单独学习率调度器的需求。这不仅提高了模型性能，而且减少了参数管理的复杂性。尽管 Adam 是第一个具有足够鲁棒性和通用性的自适应优化器，但在某些情况下，如余弦退火和单周期学习率调度器，仍然有其局限性。

余弦退火热重启策略通过周期性地提高学习率，帮助模型绕过局部极小值，找到更好的全局最小值。这种方法在某些情况下优于线性退火，尤其在需要避免过早收敛的场景中。

单周期学习率调度器则通过结合预热、冷却和微调阶段，实现了一种简洁且高效的训练策略。这种调度器在训练时间上比其他策略更短，且在性能上与 Adam 相当或略差。在实际应用中，这种策略已被证明在多种数据集和问题领域中有效。

当前观点认为，尽管 Adam 优化器因其参数少和鲁棒性高而成为默认设置，但在中后期模型优化阶段，尝试使用单周期学习率调度器可能带来显著的性能提升。在某些情况下，超收敛的特性使这种策略非常有吸引力，尤其是在时间有限的优化任务中。