当前位置: 首页 > news >正文

博客1

作业1:

用requests和BeautifulSoup库方法定向爬取给定网址(http://www.shanghairanking.cn/rankings/bcur/2020 )的数据,屏幕打印爬取的大学排名信息。

完整代码以及运行结果

心得体会:

学会了使用BeautifulSoup的常用方法。

作业2:

用requests和re库方法设计某个商城(自已选择)商品比价定向爬虫,爬取该商城,以关键词“书包”搜索页面的数据,爬取商品名称和价格。

完整代码以及运行结果

心得体会:

在数据提取阶段,我设计并优化了正则表达式,使其能同时匹配 title 或 alt 属性,从而更准确地获取商品名。同时,对价格部分进行了容错处理,以适应网页结构中可能存在的空格或小数。通过这次实验,我加深了对正则表达式的理解。

作业3:

爬取一个给定网页(https://news.fzu.edu.cn/yxfd.htm)或者自选网页的所有JPEG、JPG或PNG格式图片文件

输出信息:将自选网页内的所有JPEG、JPG或PNG格式文件保存在一个文件夹中

完整代码以及运行结果

心得体会:

我主要使用了 urllib.request 来获取网页内容,用正则表达式匹配出所有 .jpg、.jpeg、.png 格式的图片地址,并自动下载到本地文件夹中。通过这次任务我对实际应用正则表达式有了更好的理解。

http://www.hskmm.com/?act=detail&tid=39404

相关文章:

  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,技术实力与市场口碑深度解析
  • HarfBuzz概览汇报总结
  • 题解:P5853 [USACO19DEC] Tree Depth P
  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,聚焦高端定制需求与全案交付能力
  • idea或pycharm工具报python packaging tools not found. install packaging tools
  • 吃不东了
  • Alibaba Cloud Linux 4 镜像备份到自己的 OSS 中,并同时使用该镜像部署
  • Java学习与工作汇报总结
  • Function Calling
  • 《代码大全》读后感(1)
  • [K230学习笔记 02] I2C - Ze
  • day01 AI入门讲解
  • 实验作业3
  • ? #5
  • GitLab:代码管理 - 教程
  • 20232302 2025-2026-1《网络与系统攻防技术》实验三实验报告
  • MCP Router使用学习
  • fvm Flutter多版本管理安装与常用指令
  • 人生八要(摘抄)
  • 20232322 2025-2026-1 《网络与系统攻防技术》实验三实验报告
  • 2025年内窥镜电缆线厂家权威推荐榜:B超线内窥镜电缆线,专业医疗线缆制造与定制化解决方案精选
  • 网络流题单
  • 2025年盐趣科研教育深度解析:从录取数据看科研背景如何撬动名校门槛
  • 2025年10月膜结构厂家推荐榜:双资质企业对比评测 ,
  • 2025年上海久宙集团:深度解析技术护城河与行业话语权
  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,聚焦资质、案例、售后的十家机构深度解读
  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,高性能,稳定性强的行业优选
  • 2025年唐卡装饰权威深度解析:家装行业新格局和品质承诺
  • 2025年欧那德语深度解析:十二年在线小班模式全透视
  • 2025 年 10 月蒸汽发生器厂家最新推荐,聚焦跨平台能力与售后体系的实用指南