当前位置: 首页 > news >正文

爬虫遇到的问题与解

学习爬虫过程中遇到的一些问题

requests的content和text方法的区别

Requests对象的get和post方法都会返回一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。两者区别在于,content中间存的是字节码,而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。直接输出content,会发现前面存在b'这样的标志,这是字节字符串的标志,而text是',没有前面的b,对于纯ascii码,这两个可以说一模一样,对于其他的文字,需要正确编码才能正常显示。大部分情况建议使用.text,因为显示的是汉字,但有时会显示乱码,这时需要用.content.decode('utf-8'),中文常用utf-8和GBK,GB2312等。这样可以手工选择文字编码方式。所以简而言之,.text是现成的字符串,.content还要编码,但是.text不是所有时候显示都正常,这是就需要用.content进行手动编码。

re.findall提示类型不匹配的问题

外层找到后,下一步引用需要加上 str 进行转码,才不会报错

例子:

toc_block=re.findall('<h2>盗墓笔记(.*?)</div>',html,re.S)

需要转成str,否则会报类型错误的问题

toc_url=re.findall('href="(.*?)"',str(toc_block),re.S)

关于异步加载复杂json的解析

多层json,解析后,可以用re.findall查找元素

http://www.hskmm.com/?act=detail&tid=30879

相关文章:

  • 自动化测试框架选型指南:数据驱动、关键字驱动还是混合模式?
  • 直播软件搭建避坑!从直播源码选型到运维,3步搞定上线+降本60%
  • LatchUtils:简化Java异步任务同步的利器
  • Qoder + ADB Supabase :5分钟GET超火AI手办生图APP
  • 深入解析:站内信设计分析
  • 实验报告2
  • Agentic RAG对比传统RAG的优势
  • 实验二
  • linux系统查看磁盘过程
  • 2025-10-14 闲话
  • ftp多用户多目录配置
  • 芋道框架怎么样
  • 神级掩护软件!老板路过我电脑在“系统更新中”
  • 超真实“电脑崩溃模拟器”:蓝屏、重启、FBI警告一应俱全!
  • (20)ASP.NET Core2.2 EF创建模型(必需属性和可选属性、最大长度、并发标记、阴影属性) - 指南
  • (在构造函数中)调用super(props)的目的是什么?
  • 温故知新,机器人进化论,机器人分类与全球格局
  • Zemax:初学者的混合模式 - 指南
  • 西门子博图软件TIA V18使用PLCSIM Advanced V5.0进行仿真与其他程序进行通讯
  • MyEclipse 2017/2018 安装与破解 图文教程
  • 面向对象初级
  • 【文章目录】
  • Excel DDE 教學:即時資料交換的詳細指南 - 指南
  • 子网掩码基础知识
  • AI元人文构想基础理论体系研究
  • 微信机器人框架
  • 数论学习笔记
  • 实用指南:JavaWeb 课堂笔记 —— 24 AOP 面向切面编程
  • 微信机器人接口开发
  • 2025年7款与Jira数据同步的实用国产优秀项目管理软件对比