当前位置: 首页 > news >正文

Adaptive Learning Rate(自适应学习率) - -一叶知秋

Adaptive Learning Rate(自适应学习率)

Adaptive Learning Rate(自适应学习率) 是指在模型训练过程中,学习率会根据参数更新的反馈自动调整,而不是使用一个固定值。其核心思想是:
👉 不同参数或不同训练阶段,最优的学习率应该不同。

当 Loss 不在下降,Gradient 不一定是 0

而是梯度太大,在最低的 Loss 中徘徊image-20251016105805233

不同的参数需要不同的学习速率

different parameters needs different learning rate

在深度学习中,模型的各层参数承担的角色不同,它们的梯度分布、敏感度、训练目标往往不一样。
如果所有参数都用同一个学习率,会导致:

  • 有的参数更新太快,导致训练不稳定;
  • 有的参数更新太慢,导致收敛变慢甚至停滞。

因此,针对不同参数设定不同学习率,可以让模型收敛更平稳、更快。

Root Mean Square

i 是第 i 个参数,上角标是第几次更新

平方和相加取平均在开根号

image-20251020174027543

RMSProp

加上一个参数控制权重

image-20251020174608401

目前常用的

image-20251020174829143

横向累计了很多,当累计到一定程度的时候,就暴走了产生纵向的

image-20251020175510545

解决上面的办法:加入 $n^t$,随着时间 $n^t$ 逐渐变小,学习率变小

image-20251020175543403

Warm Up

黑科技(目前没有权威解释):先增加,再减小

其中一个解释:先开始很小探索周围,逐渐扩大,然后再慢慢变小收到 Loss 低点

image-20251020180424905

http://www.hskmm.com/?act=detail&tid=35300

相关文章:

  • Luogu P10034 「Cfz Round 3」Circle 题解 [ 蓝 ] [ 背包 DP ] [ 质数筛 ] [ 图论 ] [ 构造 ]
  • 2025.10.20模拟赛
  • SQLite简单使用
  • 新学期每日总结(第12天)
  • 2025.10.20总结 - A
  • CF2107E Ain and Apple Tree
  • 傻瓜式处理kauditd0病毒程序记录
  • win10 升级 win11 后时间更新失败
  • 2025,为什么公众号编辑器排版决定阅读完成率?——一次从流程到结果的深评
  • 软件工程学习日志2025.10.20
  • P14254 分割(树上计数问题) 题解
  • P14262 [ROI 2015 Day1] 自动好友
  • 软件工程第二次团队作业
  • 超越技术范畴:低代码如何重塑企业数字文化
  • 歌手与模特儿
  • 20251019
  • 十六天
  • 计算机毕业设计 基于EChants的海洋气象数据可视化平台设计与建立 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】
  • https://www.luogu.com.cn/problem/CF1635E
  • ZR 2025 NOIP 二十连测 Day 5
  • SpringBoot整合Redis教程
  • [VIM] reverse multiple lines in VIM
  • Vue 项目 AI 文档增量更新工具操作手册
  • 4060显卡也能玩转AI改图!Flux.1 Kontext Dev GGUF版本超详细入门教程 - 实践
  • 记账:流水报表
  • 2025年法兰保护罩厂家推荐排行榜,阀门保温罩,法兰罩,法兰防溅罩,法兰保护套,专业防护与定制服务优质供应商
  • 英伟达微型AI工作站的架构解析与性能突破
  • 题解 QOJ 7766 [集训队互测 2023] 栞
  • 遥感的基本概念
  • d435i 标定 imu和相机 用来复现vins_fusion - 教程