当前位置：首页 > news >正文

PyTorch 优化器（Optimizer）

news 2025/9/20 14:57:40

PyTorch 优化器（Optimizer）技术指南

1. 优化器概念

优化器（Optimizer）是深度学习训练过程中用于更新模型参数的核心组件。在训练神经网络时，我们需要通过反向传播计算损失函数相对于模型参数的梯度，然后使用优化器根据这些梯度来更新参数，以最小化损失函数。

优化器的主要作用包括：

根据梯度更新模型参数
管理学习率
实现各种优化算法（如动量、自适应学习率等）

PyTorch中的优化器位于torch.optim模块中，提供了多种常用的优化算法。所有优化器都继承自Optimizer基类，具有统一的接口，便于使用和切换。

2. 常用优化器

2.1 SGD

SGD（随机梯度下降，Stochastic Gradient Descent）是最基础也是最常用的优化算法之一。它在每次迭代中使用单个样本或小批量样本计算梯度，并根据该梯度更新参数。

参数：

params：待优化的参数列表
lr：学习率
momentum：动量因子
dampening：阻尼因子
weight_decay：权重衰减（L2正则化）
nesterov：是否使用Nesterov动量

使用场景：

适用于大多数深度学习任务
计算简单，内存占用小
通常与动量（momentum）结合使用以加快收敛

2.2 Adam

Adam（Adaptive Moment Estimation）是一种自适应学习率优化算法，结合了动量和RMSprop的优点。它根据梯度的一阶矩估计和二阶矩估计来自适应地调整每个参数的学习率。

参数：

params：待优化的参数列表
lr：学习率
betas：用于计算梯度及其平方的系数（默认：(0.9, 0.999)）
eps：数值稳定性常数
weight_decay：权重衰减（L2正则化）
amsgrad：是否使用AMSGrad变体

使用场景：

适用于大多数深度学习任务
在实践中通常表现良好
对超参数相对不敏感

2.3 AdamW

AdamW是Adam优化器的一个变体，它将权重衰减与梯度的L2正则化分离，解决了原始Adam中权重衰减实现不当的问题。

参数：

params：待优化的参数列表
lr：学习率
betas：用于计算梯度及其平方的系数（默认：(0.9, 0.999)）
eps：数值稳定性常数
weight_decay：权重衰减
amsgrad：是否使用AMSGrad变体

使用场景：

适用于需要权重衰减的深度学习任务
在许多任务中表现优于原始Adam
特别适用于Transformer模型

2.4 Adagrad

Adagrad（Adaptive Gradient Algorithm）为每个参数维护一个学习率，根据历史梯度的平方来自适应地调整学习率。

参数：

params：待优化的参数列表
lr：学习率
lr_decay：学习率衰减
weight_decay：权重衰减
eps：数值稳定性常数

使用场景：

适用于稀疏数据（如自然语言处理）
在某些情况下学习率下降过快

2.5 Adadelta

Adadelta是Adagrad的扩展，通过限制累积梯度窗口的大小来解决学习率单调下降的问题。

参数：

params：待优化的参数列表
rho：用于计算平方梯度移动平均的系数
eps：数值稳定性常数
lr：学习率
weight_decay：权重衰减

使用场景：

适用于不需要设置初始学习率的场景
在某些情况下表现优于Adagrad

2.6 RMSprop

RMSprop通过使用梯度平方的指数移动平均来调整Adagrad，解决了学习率急剧下降的问题。

参数：

params：待优化的参数列表
lr：学习率
alpha：平滑常数
eps：数值稳定性常数
weight_decay：权重衰减
momentum：动量因子
centered：是否计算中心化RMSprop

使用场景：

适用于非平稳目标
在循环神经网络中表现良好

2.7 Adamax

Adamax是Adam的一个变体，使用无穷范数代替L2范数。

参数：

params：待优化的参数列表
lr：学习率
betas：用于计算梯度及其平方的系数（默认：(0.9, 0.999)）
eps：数值稳定性常数
weight_decay：权重衰减

使用场景：

适用于需要更稳定范数的场景

2.8 ASGD

ASGD（Averaged Stochastic Gradient Descent）实现了随机平均梯度下降算法。

参数：

params：待优化的参数列表
lr：学习率
lambda：正则化参数
alpha：ASGD参数
t0：指向平均的点开始的时刻
weight_decay：权重衰减

使用场景：

适用于需要平均化参数的场景

2.9 LBFGS

LBFGS（Limited-memory BFGS）是一种拟牛顿优化方法，适用于中等规模的问题。

参数：

params：待优化的参数列表
lr：学习率
max_iter：每个优化步骤的最大迭代次数
max_eval：每个优化步骤的最大函数评估次数
tolerance_grad：梯度停止标准
tolerance_change：函数值和参数变化的停止标准
history_size：更新历史大小
line_search_fn：线搜索函数

使用场景：

适用于小到中等规模的问题
在某些情况下比SGD更高效

2.10 Rprop

Rprop（Resilient Backpropagation）根据梯度符号而不是梯度值来更新参数。

参数：

params：待优化的参数列表
lr：学习率
etas：乘法增加/减少因子
step_sizes：最小/最大步长

使用场景：

适用于全批处理优化
在某些情况下比基于梯度大小的方法更稳定

2.11 RAdam

RAdam（Rectified Adam）通过引入方差自适应参数来解决Adam的收敛问题。

参数：

params：待优化的参数列表
lr：学习率
betas：用于计算梯度及其平方的系数（默认：(0.9, 0.999)）
eps：数值稳定性常数
weight_decay：权重衰减

使用场景：

适用于需要更稳定收敛的场景

2.12 NAdam

NAdam（Nesterov-accelerated Adaptive Moment Estimation）结合了Adam和Nesterov动量。

参数：

params：待优化的参数列表
lr：学习率
betas：用于计算梯度及其平方的系数（默认：(0.9, 0.999)）
eps：数值稳定性常数
weight_decay：权重衰减
momentum_decay：动量衰减

使用场景：

适用于需要Nesterov动量的场景

2.13 SparseAdam

SparseAdam是专为稀疏张量设计的Adam变体。

参数：

params：待优化的参数列表
lr：学习率
betas：用于计算梯度及其平方的系数（默认：(0.9, 0.999)）
eps：数值稳定性常数

使用场景：

适用于嵌入查找等稀疏参数场景

2.14 Adafactor

Adafactor是一种内存效率高的优化器，特别适用于大规模模型。

参数：

params：待优化的参数列表
lr：学习率
eps：数值稳定性常数
clip_threshold：梯度裁剪阈值
decay_rate：衰减率
beta1：一阶动量系数
weight_decay：权重衰减
scale_parameter：是否缩放参数
relative_step：是否使用相对步长
warmup_init：是否使用预热初始化

使用场景：

适用于大规模模型（如Transformer）
内存受限的情况

3. 使用示例

以下是一些使用PyTorch优化器的基本示例：

import torch
import torch.nn as nn
import torch.optim as optim# 定义模型
model = nn.Sequential(nn.Linear(10, 5),nn.ReLU(),nn.Linear(5, 1)
)# 选择一个优化器
# 示例1: SGD with momentum
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)# 示例2: Adam
# optimizer = optim.Adam(model.parameters(), lr=0.001)# 示例3: AdamW
# optimizer = optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)# 示例4: RMSprop
# optimizer = optim.RMSprop(model.parameters(), lr=0.001, alpha=0.99)# 训练循环
for epoch in range(100):# 前向传播outputs = model(inputs)loss = criterion(outputs, targets)# 清零梯度optimizer.zero_grad()# 反向传播loss.backward()# 更新参数optimizer.step()print(f"Epoch {epoch+1}, Loss: {loss.item()}")

对于某些优化器（如LBFGS），使用方式略有不同：

# LBFGS优化器使用示例
optimizer = optim.LBFGS(model.parameters(), lr=0.01)def closure():optimizer.zero_grad()output = model(input)loss = loss_fn(output, target)loss.backward()return lossfor epoch in range(100):optimizer.step(closure)  # 传入闭包函数

4. 选择合适的优化器

选择合适的优化器需要考虑以下因素：

任务类型：
- 对于大多数深度学习任务，Adam或AdamW是很好的默认选择
- 对于稀疏数据，Adagrad或SparseAdam可能更合适
- 对于大规模模型，Adafactor可以节省内存
模型规模：
- 小到中等规模模型可以使用大多数优化器
- 大规模模型可能需要内存效率更高的优化器（如Adafactor）
训练时间要求：
- SGD通常训练速度较快但可能需要更多epoch
- 自适应方法（如Adam）通常收敛更快
超参数敏感性：
- SGD对学习率较为敏感
- 自适应方法对超参数相对不敏感
最终性能：
- SGD通常能获得最佳的泛化性能
- 自适应方法通常训练更快但可能泛化性能略差