2023届算法岗面经题:训练深度学习模型时loss除以10和学习率除以10真的等价吗? 先说结论:这个问题的答案与优化器有关,SGD等价,Adam不等价 使用Adam、Adagrad、RMSprop等带有二阶动量 v t v_t v