时间过得很快,大数据分析学习已经进入第四周。这一周,我们聚焦于线性回归模型—— 这个看似简单却贯穿数据分析领域的核心算法。从理论公式推导到实际案例落地,我不仅掌握了模型的基本逻辑,更体会到 “用数据解释规律、用模型预测未来” 的数据分析思维。以下是我本周的学习总结与思考。
一、本周学习核心:线性回归模型的 “是什么” 与 “怎么用”
线性回归核心就是找变量之间的 “线性联系”。比如说,“广告投得越多,商品卖得越好”“房子越大,房价越高”,这些能用量化方式描述的关联,都能用线性回归模型来分析。
- 先搞懂:线性回归的两个核心类型
线性回归主要分为 “简单线性回归” 和 “多元线性回归”,两者的区别在于 “自变量的数量”,我觉得这种概念特别抽象呜呜,以下是AI工具帮助我理解这些晦涩概念所举的形象例子:
简单线性回归:就一个影响因素和一个结果。
比如看 “促销折扣(X)” 对 “商品销量(Y)” 的影响。模型就像个公式:Y = 基础销量 + 折扣带来的销量增长 + 随机波动。这里 “基础销量” 是没折扣时能卖多少,“折扣带来的销量增长” 是每多打 1% 折扣能多卖多少,“随机波动” 就是那些模型解释不了的小误差。
多元线性回归:多个影响因素一起作用。
还是说房价,影响房价的因素可多了,面积、离市中心多远、房子多少年了等等。这时候就得把这些因素都考虑进去,模型会算出每个因素对房价的影响程度,比如面积每大 1 平米,房价能涨多少钱;离市中心每远 1 公里,房价又会降多少钱。 - 怎么让模型更贴合数据?
模型的关键是找到最合适的参数,让预测值和真实值的误差最小。这里有两个重点:
误差怎么算:用 “均方误差”,就是把所有 “真实值 - 预测值” 的平方加起来求平均。我们的目标就是让这个值越小越好。
怎么找最优参数:用 “普通最小二乘法”,听着复杂,其实就是通过数学计算,直接能算出最合适的参数,不用反复试,特别方便。 - 模型好不好,得检验
算出参数后,不能直接就用,得看看模型靠不靠谱。这周学了三个特别重要的检验方法:
R²(决定系数):看模型能解释多少数据的变化。比如 R² 是 0.8,就说明有 80% 的销量变化能被广告投入解释,剩下 20% 是其他因素。R² 越接近 1,模型越好。
p 值:判断每个因素是不是真的对结果有影响。一般 p 小于 0.05 才算有影响,要是 p 大于等于 0.05,说明这个因素没啥用,可以从模型里去掉。
多重共线性:多个因素之间不能太相关。比如 “房子套内面积” 和 “建筑面积” 本来就差不多,一起放进模型里会捣乱。用 “方差膨胀因子” 检测,超过 10 就说明得去掉一个因素。
二、实践案例:预测电商商品销量,太有意思了!
这周的实践任务是用数据预测日用品的周销量,过程特别有趣,也踩了不少坑,分享给大家。 - 数据准备:把杂乱数据变有用
一开始拿到的数据有商品 ID、广告投入、促销折扣、库存、销量这些,一共 120 条。
第一步就是得清理数据:
处理缺失值:有 3 条数据的促销折扣是空的,就用这个商品平时的平均折扣补上,因为缺的不多,这样处理影响不大。
选有用的因素:不是所有数据都有用,比如 “商品 ID” 就是个编号,对销量没啥影响,直接去掉。 - 模型搭建:从简单到复杂
先做简单线性回归,只看 “广告投入” 对 “销量” 的影响。算出 R² 是 0.65,说明广告投入能解释 65% 的销量变化,还不错,但感觉还有提升空间。
然后做多元线性回归,把 “广告投入”“促销折扣”“库存” 都放进去。结果 R² 涨到了 0.82,说明一起考虑这些因素,模型能解释更多销量变化了。 - 避坑时刻:这些错误别犯!
一开始没注意 “库存” 的 p 值,算出来 p=0.12,大于 0.05,说明库存对销量影响不显著,差点就留着这个没用的因素了,后来赶紧去掉,模型更准了。
还发现 “广告投入” 和 “促销折扣” 有点相关(毕竟两者都是促进销售的手段),不过用方差膨胀因子检测,数值是 3.2,小于 10,说明不算严重共线性,不用特别处理。
三、总结:线性回归,简单但超实用!
这周学下来,感觉线性回归就是数据分析的 “入门利器”—— 原理不难,上手快,还能解决很多实际问题。不管是预测销量、房价,还是分析用户行为,都能用它试试。而且通过这周的实践,我也明白,数据分析不是 “算出结果就完事”,得反复检验、调整,才能得到靠谱的结论。下周继续加油!