深度学习中的优化算法主要围绕梯度下降算法展开,其主要思想是:选取一定的训练样本,按照一定的步长(学习率)沿着梯度的方向调整更新参数,优化模型的目标函数。

SGD

随机梯度下降法是每次使用一批数据进行梯度的计算,而非计算全部数据的梯度,因为如果每次计算全部数据的梯度,会导致运算量加大,运算时间变长,容易陷入局部最优解,而随机梯度下降可能每次不是朝着真正最小的方向,这样反而可以跳出局部的最优解。