深度学习,深度睡眠 2023-04-27 01:48 采纳率: 68.8%
浏览 14

requests库返回的html文档和response.text不一致

我使用requests库请求返回的response.text保存为html文档后,可以搜到我想要的元素,但是我打断点,将response.text手工复制到html后,格式化文档后,却搜不到该元素及其它一些元素,就是说保存后的response.text和保存前的response.text不一致,请问是什么原因?

img

  • 写回答

2条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2023-04-27 04:05
    关注
    • 你看下这篇博客吧, 应该有用👉 :通过requests包爬虫response.text中文乱码
    • 除此之外, 这篇博客: 爬虫(7)一文搞懂爬虫的网络请求,requests库的使用中的 response.text和response.content的区别: 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
    • 1.response.content:这个是直接从网络上抓取的数据,没有经过任何的编码.所以是一个bytes类型的,其实在硬盘上和在网络上传输的字符串都是bytes类型.
      2.response.text:这个数str的数据类型,是requests库将response.content进行编码的字符串,解码需要指定一个编码方式,requests会根据自己的猜测来判断解码的方式,所以有的时候会猜测错误,从而造成乱码,这时候应该用response.content.encode('utf-8').decode('utf-8')

      有的客官会讲:你这人怎么回事,讲了get请求不讲post请求,搞哪样

    评论

报告相同问题?

问题事件

  • 创建了问题 4月27日

悬赏问题

  • ¥200 csgo2的viewmatrix值是否还有别的获取方式
  • ¥15 Stable Diffusion,用Ebsynth utility在视频选帧图重绘,第一步报错,蒙版和帧图没法生成,怎么处理啊
  • ¥15 请把下列每一行代码完整地读懂并注释出来
  • ¥15 pycharm运行main文件,显示没有conda环境
  • ¥15 寻找公式识别开发,自动识别整页文档、图像公式的软件
  • ¥15 为什么eclipse不能再下载了?
  • ¥15 编辑cmake lists 明明写了project项目名,但是还是报错怎么回事
  • ¥15 关于#计算机视觉#的问题:求一份高质量桥梁多病害数据集
  • ¥15 特定网页无法访问,已排除网页问题
  • ¥50 如何将脑的图像投影到颅骨上