gqjywyjhfls 2022-12-28 14:44 采纳率: 100%
浏览 38
已结题

爬虫数据解析的时候出现的问题?

在做爬虫的时候本来打算用正则节选出来的图片
但是最后节选出来的是【】
代码如下

import requests
import re
p_url = "https://mmbiz.qpic.cn/mmbiz_jpg/aMVBs00R3EpUGSsB62EkEcrG1IbztbvfZb2ibaSiaJFXwWTC38f1Esw43ynZAmvzag79QJ1dqQ6aRkyicRZM3UK6A/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1"
zz = '<img.*?src="(.*?)"'
p_headers = {
      'User Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
page_data = requests.get(url = p_url, headers = p_headers).text
image_list = re.findall(zz, page_data, re.S)
print(image_list)
print("爬取结束")

print出来一个[]
试着想看是不是requests.get那边的问题 然后试着print page_data结果解码不出来
但我想解码不出来是不是有部分是汉字的原因那是不是表示这部分也没问题
然后就 停止思考了》。。
请求大家的帮助 按理说会打印很多图片地址的吧

  • 写回答

2条回答 默认 最新

  • ash062 2022-12-28 15:23
    关注

    为什么解码不了,因为返回的是一张图片。。。
    可以加上这两行看一下

    res = requests.get(url = p_url, headers = p_headers)
    with open('.\\640.jpg', 'wb') as f: f.write(res.content)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月5日
  • 已采纳回答 12月28日
  • 创建了问题 12月28日

悬赏问题

  • ¥20 基于MSP430f5529的MPU6050驱动,求出欧拉角
  • ¥20 Java-Oj-桌布的计算
  • ¥15 powerbuilder中的datawindow数据整合到新的DataWindow
  • ¥20 有人知道这种图怎么画吗?
  • ¥15 pyqt6如何引用qrc文件加载里面的的资源
  • ¥15 安卓JNI项目使用lua上的问题
  • ¥20 RL+GNN解决人员排班问题时梯度消失
  • ¥60 要数控稳压电源测试数据
  • ¥15 能帮我写下这个编程吗
  • ¥15 ikuai客户端l2tp协议链接报终止15信号和无法将p.p.p6转换为我的l2tp线路