当前位置: 首页 > news >正文

作业一

作业①

  1. 用requests和BeautifulSoup库方法定向爬取给定网址(http://www.shanghairanking.cn/rankings/bcur/2020 )的数据,屏幕打印爬取的大学排名信息。

IMG_256

image

    2.心得体会

有些网站实际编码可能与声明编码不一致,所以用apparent_encoding自动检测是最合适的,在对院校名称爬取时会附带双一流985等,通过.split('\n')[0]只提取名称即可。这是一个较为通用的爬取模板。

作业②

  1. 用requests和re库方法设计某个商城(百联网)商品比价定向爬虫,爬取该商城,以关键词“书包”搜索页面的数据,爬取商品名称和价格。

IMG_256

image

 

    2.心得体会

发现在爬取动态加载页面时requests和re库没办法直接根据网页爬到有效信息,所以先在终端贴出源码,然后再根据源码的格式写正则表达式,爬取模板大差不差,主要的难点还是在正则表达式上。

作业③

  1. 爬取一个给定网页(https://news.fzu.edu.cn/yxfd.htm)或者自选网页的所有JPEG、JPG或PNG格式图片文件

IMG_256

IMG_256

image

  2.心得体会

先爬出网址路径,然后根据路径下载图片保存到本地即可

http://www.hskmm.com/?act=detail&tid=39417

相关文章:

  • Nginx部署星益小游戏平台(静态页面)
  • hadoop应用遇到的问题
  • Nginx程序结构及核心配置
  • 事倍功半是蠢蛋57 typora相对路径图片上传到github
  • 序列密码基本模型
  • 企业级Nginx安装部署
  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,聚焦产能、专利与环保的实力品牌深度解析
  • 以“听”为基,以“做”为翼
  • 解码Linux文件IO之中文字库原理与应用
  • 企业级Web应用及Nginx介绍
  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,精准检测与稳定性能兼具的行业优选解析
  • 使用EasyBlogImageForTypora将Typora上传图床改为博客园——2025/10/26最新
  • 博客1
  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,技术实力与市场口碑深度解析
  • HarfBuzz概览汇报总结
  • 题解:P5853 [USACO19DEC] Tree Depth P
  • 2025 年 10 月门窗十大品牌综合实力权威推荐榜单,聚焦高端定制需求与全案交付能力
  • idea或pycharm工具报python packaging tools not found. install packaging tools
  • 吃不东了
  • Alibaba Cloud Linux 4 镜像备份到自己的 OSS 中,并同时使用该镜像部署
  • Java学习与工作汇报总结
  • Function Calling
  • 《代码大全》读后感(1)
  • [K230学习笔记 02] I2C - Ze
  • day01 AI入门讲解
  • 实验作业3
  • ? #5
  • GitLab:代码管理 - 教程
  • 20232302 2025-2026-1《网络与系统攻防技术》实验三实验报告
  • MCP Router使用学习