gqjywyjhfls 2022-12-28 14:44 采纳率: 100%
浏览 38
已结题

爬虫数据解析的时候出现的问题?

在做爬虫的时候本来打算用正则节选出来的图片
但是最后节选出来的是【】
代码如下

import requests
import re
p_url = "https://mmbiz.qpic.cn/mmbiz_jpg/aMVBs00R3EpUGSsB62EkEcrG1IbztbvfZb2ibaSiaJFXwWTC38f1Esw43ynZAmvzag79QJ1dqQ6aRkyicRZM3UK6A/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1"
zz = '<img.*?src="(.*?)"'
p_headers = {
      'User Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
page_data = requests.get(url = p_url, headers = p_headers).text
image_list = re.findall(zz, page_data, re.S)
print(image_list)
print("爬取结束")

print出来一个[]
试着想看是不是requests.get那边的问题 然后试着print page_data结果解码不出来
但我想解码不出来是不是有部分是汉字的原因那是不是表示这部分也没问题
然后就 停止思考了》。。
请求大家的帮助 按理说会打印很多图片地址的吧

  • 写回答

2条回答 默认 最新

  • ash062 2022-12-28 15:23
    关注

    为什么解码不了,因为返回的是一张图片。。。
    可以加上这两行看一下

    res = requests.get(url = p_url, headers = p_headers)
    with open('.\\640.jpg', 'wb') as f: f.write(res.content)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月5日
  • 已采纳回答 12月28日
  • 创建了问题 12月28日

悬赏问题

  • ¥30 VMware 云桌面水印如何添加
  • ¥15 用ns3仿真出5G核心网网元
  • ¥15 matlab答疑 关于海上风电的爬坡事件检测
  • ¥88 python部署量化回测异常问题
  • ¥30 酬劳2w元求合作写文章
  • ¥15 在现有系统基础上增加功能
  • ¥15 远程桌面文档内容复制粘贴,格式会变化
  • ¥15 这种微信登录授权 谁可以做啊
  • ¥15 请问我该如何添加自己的数据去运行蚁群算法代码
  • ¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”