gqjywyjhfls 2022-12-28 14:44 采纳率: 100%
浏览 38
已结题

爬虫数据解析的时候出现的问题?

在做爬虫的时候本来打算用正则节选出来的图片
但是最后节选出来的是【】
代码如下

import requests
import re
p_url = "https://mmbiz.qpic.cn/mmbiz_jpg/aMVBs00R3EpUGSsB62EkEcrG1IbztbvfZb2ibaSiaJFXwWTC38f1Esw43ynZAmvzag79QJ1dqQ6aRkyicRZM3UK6A/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1"
zz = '<img.*?src="(.*?)"'
p_headers = {
      'User Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
page_data = requests.get(url = p_url, headers = p_headers).text
image_list = re.findall(zz, page_data, re.S)
print(image_list)
print("爬取结束")

print出来一个[]
试着想看是不是requests.get那边的问题 然后试着print page_data结果解码不出来
但我想解码不出来是不是有部分是汉字的原因那是不是表示这部分也没问题
然后就 停止思考了》。。
请求大家的帮助 按理说会打印很多图片地址的吧

  • 写回答

2条回答 默认 最新

  • ash062 2022-12-28 15:23
    关注

    为什么解码不了,因为返回的是一张图片。。。
    可以加上这两行看一下

    res = requests.get(url = p_url, headers = p_headers)
    with open('.\\640.jpg', 'wb') as f: f.write(res.content)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月5日
  • 已采纳回答 12月28日
  • 创建了问题 12月28日

悬赏问题

  • ¥20 wireshark抓不到vlan
  • ¥20 关于#stm32#的问题:需要指导自动酸碱滴定仪的原理图程序代码及仿真
  • ¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
  • ¥15 stata安慰剂检验作图但是真实值不出现在图上
  • ¥15 c程序不知道为什么得不到结果
  • ¥40 复杂的限制性的商函数处理
  • ¥15 程序不包含适用于入口点的静态Main方法
  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来