当前位置: 首页 > news >正文

大数据分析基础及应用案例:第四周学习报告——线性回归模型

时间过得很快,大数据分析学习已经进入第四周。这一周,我们聚焦于线性回归模型—— 这个看似简单却贯穿数据分析领域的核心算法。从理论公式推导到实际案例落地,我不仅掌握了模型的基本逻辑,更体会到 “用数据解释规律、用模型预测未来” 的数据分析思维。以下是我本周的学习总结与思考。
一、本周学习核心:线性回归模型的 “是什么” 与 “怎么用”
线性回归核心就是找变量之间的 “线性联系”。比如说,“广告投得越多,商品卖得越好”“房子越大,房价越高”,这些能用量化方式描述的关联,都能用线性回归模型来分析。

  1. 先搞懂:线性回归的两个核心类型
    线性回归主要分为 “简单线性回归” 和 “多元线性回归”,两者的区别在于 “自变量的数量”,我觉得这种概念特别抽象呜呜,以下是AI工具帮助我理解这些晦涩概念所举的形象例子:
    简单线性回归:就一个影响因素和一个结果。
    比如看 “促销折扣(X)” 对 “商品销量(Y)” 的影响。模型就像个公式:Y = 基础销量 + 折扣带来的销量增长 + 随机波动。这里 “基础销量” 是没折扣时能卖多少,“折扣带来的销量增长” 是每多打 1% 折扣能多卖多少,“随机波动” 就是那些模型解释不了的小误差。
    多元线性回归:多个影响因素一起作用。
    还是说房价,影响房价的因素可多了,面积、离市中心多远、房子多少年了等等。这时候就得把这些因素都考虑进去,模型会算出每个因素对房价的影响程度,比如面积每大 1 平米,房价能涨多少钱;离市中心每远 1 公里,房价又会降多少钱。
  2. 怎么让模型更贴合数据?
    模型的关键是找到最合适的参数,让预测值和真实值的误差最小。这里有两个重点:
    误差怎么算:用 “均方误差”,就是把所有 “真实值 - 预测值” 的平方加起来求平均。我们的目标就是让这个值越小越好。
    怎么找最优参数:用 “普通最小二乘法”,听着复杂,其实就是通过数学计算,直接能算出最合适的参数,不用反复试,特别方便。
  3. 模型好不好,得检验
    算出参数后,不能直接就用,得看看模型靠不靠谱。这周学了三个特别重要的检验方法:
    R²(决定系数):看模型能解释多少数据的变化。比如 R² 是 0.8,就说明有 80% 的销量变化能被广告投入解释,剩下 20% 是其他因素。R² 越接近 1,模型越好。
    p 值:判断每个因素是不是真的对结果有影响。一般 p 小于 0.05 才算有影响,要是 p 大于等于 0.05,说明这个因素没啥用,可以从模型里去掉。
    多重共线性:多个因素之间不能太相关。比如 “房子套内面积” 和 “建筑面积” 本来就差不多,一起放进模型里会捣乱。用 “方差膨胀因子” 检测,超过 10 就说明得去掉一个因素。
    二、实践案例:预测电商商品销量,太有意思了!
    这周的实践任务是用数据预测日用品的周销量,过程特别有趣,也踩了不少坑,分享给大家。
  4. 数据准备:把杂乱数据变有用
    一开始拿到的数据有商品 ID、广告投入、促销折扣、库存、销量这些,一共 120 条。
    第一步就是得清理数据:
    处理缺失值:有 3 条数据的促销折扣是空的,就用这个商品平时的平均折扣补上,因为缺的不多,这样处理影响不大。
    选有用的因素:不是所有数据都有用,比如 “商品 ID” 就是个编号,对销量没啥影响,直接去掉。
  5. 模型搭建:从简单到复杂
    先做简单线性回归,只看 “广告投入” 对 “销量” 的影响。算出 R² 是 0.65,说明广告投入能解释 65% 的销量变化,还不错,但感觉还有提升空间。
    然后做多元线性回归,把 “广告投入”“促销折扣”“库存” 都放进去。结果 R² 涨到了 0.82,说明一起考虑这些因素,模型能解释更多销量变化了。
  6. 避坑时刻:这些错误别犯!
    一开始没注意 “库存” 的 p 值,算出来 p=0.12,大于 0.05,说明库存对销量影响不显著,差点就留着这个没用的因素了,后来赶紧去掉,模型更准了。
    还发现 “广告投入” 和 “促销折扣” 有点相关(毕竟两者都是促进销售的手段),不过用方差膨胀因子检测,数值是 3.2,小于 10,说明不算严重共线性,不用特别处理。
    三、总结:线性回归,简单但超实用!
    这周学下来,感觉线性回归就是数据分析的 “入门利器”—— 原理不难,上手快,还能解决很多实际问题。不管是预测销量、房价,还是分析用户行为,都能用它试试。而且通过这周的实践,我也明白,数据分析不是 “算出结果就完事”,得反复检验、调整,才能得到靠谱的结论。下周继续加油!
http://www.hskmm.com/?act=detail&tid=36062

相关文章:

  • 「LG7446-rfplca」题解
  • 图论刷题记录
  • 「LG6596-How Many of Them」题解
  • 骗我呢
  • 手写体识别
  • 你好,我是肆闲:C语言的学习,成长与分享旅程
  • AGC 合集 1.0
  • 20231302邱之钊密码系统设计实验一第二
  • 深入BERT内核:用数学解密掩码语言模型的工作原理
  • ZR 2025 NOIP 二十连测 Day 6
  • 20251021
  • [论文笔记] Precision-Guided Context Sensitivity for Pointer Analysis
  • 英语_备忘_疑难
  • 数学题刷题记录(数学、数论、组合数学)
  • 朋友圈文案不会写?这个AI指令可能帮得上忙
  • 「JOISC2020-掃除」题解
  • 结对作业
  • CF简单构造小计
  • 深入认识ClassLoader - 一次投产失败的复盘
  • python 包来源镜像
  • CSharp基础复习-1
  • Linux7种文件类型
  • 米理 课程描述/学习计划/Study program
  • 2025年线路调压器厂家推荐榜:10kv线路调压器/单相线路调压器/三相线路调压器/助力电网稳定运行,优选品牌指南
  • Day15
  • 2025 智能/商超照明/灯具/灯光/源头厂家推荐榜:上海富明阳凭分区域光效领跑,生鲜 / 百货场景适配优选
  • 2025 艺考文化课推荐榜:济南震华学校 5 星领跑,全阶段体系适配基础补弱到高分冲刺
  • 2025 广州人力资源/派遣/劳务外包/人事代理/推荐榜:精典人才凭派遣合规 + 全场景适配领跑,企业用工优选
  • 2025 变电站厂家推荐榜最新资讯:撬装变电站/移动车载变电站/预制舱式变电站/移动变电站/预装式变电站/聚焦智能适配与可靠服务,这家企业成优选​
  • 题解:P12525 [Aboi Round 1] 私は雨