当前位置: 首页 > news >正文

oucaiclub_cheapter1

Part1 代码练习

螺旋分类实验过程

初始准备


生成样本


线性模型分类


神经网络分类


反思总结

问题与解决

首次尝试中,在进行神经网络分类时,损失和准确率的结果与线性模型基本一样,没有明显改善。

检查错误后,发现在设置优化器时,仍然使用的是SGD分类模型。

总结

模型优化过程对模型影响结果重大

Part2 问题总结

AlexNet有哪些特点?为什么可以比LeNet取得更好的性能?

  1. Alex使用了参数更大,计算复杂的更高的模型
  2. 使用了MaxPooling替换AverPooling,保留了更大的梯度,收敛更快
  3. 激活函数使用ReLU替换了sigmoid
  4. 加入了丢弃层实现正则

激活函数有哪些作用?

  1. 最核心作用:引入非线性
  2. 控制输出范围。sigmoid[0,1],ReLU[0,]
  3. 决定神经元。ReLU函数可以过滤负数输入。

梯度消失现象是什么?

在反向传播过程中,梯度趋近于0,导致参数无法被更新

神经网络是更宽好还是更深好?

该问题目前没有明确答案

深度和宽度的概念从MLP而来,宽度是每层的feature数,深度是提取阶段数

更宽的网络有更多的子网络,对比小网络更有产生梯度相干的可能;更深的网络,梯度相干现象被放大。

深度代表了函数的表示能力,宽度关联了优化的难易程度。

在参数固定的情况下,如果任务更关注局部特征、浅层特征,可以提高宽度;如果更关注全局特征,可以提高深度。

为什么要使用Softmax?

softmax用来进行归一化处理,将模型的线性输出转换为对应概率输出[0,1]。

为什么选择引入e,而非直接线性处理?

指数增长的特性:横轴变化很小的两,纵轴会有较大变化。引入e,可以增大两个相邻输出的概率差,可以更明确的分类。

SGD和Adam哪个更有效?

该问题没有明确答案

Adam简化了调参,且在小样本时,收敛速度快。但在样本较大时,后期学习率太低,且容易对前期出现的特征过拟合。
有人提出在优化过程中,前期用Adam,享受快速收敛的优势,然后切换到SGD,缓慢寻找最优解。

Part3 学习笔记



http://www.hskmm.com/?act=detail&tid=17489

相关文章:

  • navicat
  • 20250925 之所思 - 人生如梦
  • 在CodeBolcks下wxSmith的C++编程教程——在屏幕上绘图和保存绘图
  • 苍穹外卖-day07(缓存菜品,缓存套餐,添加购物车,查看购物车,清空购物车) - a
  • 一次CPU飙升问题排查定位
  • ros2 control 2
  • 基于洞察的智能编程法——从直觉到代码的原型炼成术
  • lc1036-逃离大迷宫
  • 9.25学习笔记
  • 新学期每日总结(第4天)
  • VSCode 升级 C++支持版本
  • 第四天
  • 25.9.25
  • 在electron-vite使用ShadCN
  • 每日博客(补)
  • 如何使用极限网关实现 Elasticsearch 集群迁移至 Easysearch
  • 文档抽取技术:实现金融保险业务流程自动化
  • 算法作业
  • C#学习3
  • 9-23
  • 9-26
  • Ubuntu Uninstall App
  • 20250925
  • 题解:P2662 牛场围栏
  • day11 课程(学员管理系统案例)
  • c语言初步学习
  • jmeter函数
  • 【网络编程】UDP 编程实战:从套接字到聊天室多场景计划构建
  • AC自动机在线版本(alert命中报警)
  • week1 homework