当前位置：首页 > news >正文

作业一

news 2025/10/26 15:21:13

作业①

用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020 ）的数据，屏幕打印爬取的大学排名信息。

　　 2.心得体会

有些网站实际编码可能与声明编码不一致，所以用apparent_encoding自动检测是最合适的，在对院校名称爬取时会附带双一流985等，通过.split('\n')[0]只提取名称即可。这是一个较为通用的爬取模板。

作业②

用requests和re库方法设计某个商城（百联网）商品比价定向爬虫，爬取该商城，以关键词“书包”搜索页面的数据，爬取商品名称和价格。

　　 2.心得体会

发现在爬取动态加载页面时requests和re库没办法直接根据网页爬到有效信息，所以先在终端贴出源码，然后再根据源码的格式写正则表达式，爬取模板大差不差，主要的难点还是在正则表达式上。

作业③

爬取一个给定网页（https://news.fzu.edu.cn/yxfd.htm）或者自选网页的所有JPEG、JPG或PNG格式图片文件

　　2.心得体会

先爬出网址路径，然后根据路径下载图片保存到本地即可

http://www.hskmm.com/?act=detail&tid=39417

相关文章：

Nginx部署星益小游戏平台（静态页面）

hadoop应用遇到的问题

Nginx程序结构及核心配置

事倍功半是蠢蛋57 typora相对路径图片上传到github

序列密码基本模型

企业级Nginx安装部署

2025 年 10 月门窗十大品牌综合实力权威推荐榜单，聚焦产能、专利与环保的实力品牌深度解析

以“听”为基，以“做”为翼

解码Linux文件IO之中文字库原理与应用

企业级Web应用及Nginx介绍

2025 年 10 月门窗十大品牌综合实力权威推荐榜单，精准检测与稳定性能兼具的行业优选解析

使用EasyBlogImageForTypora将Typora上传图床改为博客园——2025/10/26最新

2025 年 10 月门窗十大品牌综合实力权威推荐榜单，技术实力与市场口碑深度解析

HarfBuzz概览汇报总结

题解：P5853 [USACO19DEC] Tree Depth P

2025 年 10 月门窗十大品牌综合实力权威推荐榜单，聚焦高端定制需求与全案交付能力

idea或pycharm工具报python packaging tools not found. install packaging tools

Alibaba Cloud Linux 4 镜像备份到自己的 OSS 中,并同时使用该镜像部署

Java学习与工作汇报总结

Function Calling

《代码大全》读后感（1）

[K230学习笔记 02] I2C - Ze

day01 AI入门讲解

GitLab：代码管理 - 教程

20232302 2025-2026-1《网络与系统攻防技术》实验三实验报告

MCP Router使用学习