- 更新的步骤
- 首先以某种方式计算出
epoch,每个epoch包含steps_in_epoch - 然后计算出
total_updates,表示参数更新次数 - 接着取出
batch_size个样本进行损失计算(各个样本以及各个设备会平均,最后得到的损失就像一个样本得出来的,为个位数) - 然后执行反向传播累计梯度
- 每
gradient_accumulation_steps步进行一次更新参数
![image]()
- 首先以某种方式计算出
epoch,每个epoch包含steps_in_epochtotal_updates,表示参数更新次数batch_size个样本进行损失计算(各个样本以及各个设备会平均,最后得到的损失就像一个样本得出来的,为个位数)gradient_accumulation_steps步进行一次更新参数