gqjywyjhfls 2022-12-28 14:44 采纳率: 100%
浏览 38
已结题

爬虫数据解析的时候出现的问题?

在做爬虫的时候本来打算用正则节选出来的图片
但是最后节选出来的是【】
代码如下

import requests
import re
p_url = "https://mmbiz.qpic.cn/mmbiz_jpg/aMVBs00R3EpUGSsB62EkEcrG1IbztbvfZb2ibaSiaJFXwWTC38f1Esw43ynZAmvzag79QJ1dqQ6aRkyicRZM3UK6A/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1"
zz = '<img.*?src="(.*?)"'
p_headers = {
      'User Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
page_data = requests.get(url = p_url, headers = p_headers).text
image_list = re.findall(zz, page_data, re.S)
print(image_list)
print("爬取结束")

print出来一个[]
试着想看是不是requests.get那边的问题 然后试着print page_data结果解码不出来
但我想解码不出来是不是有部分是汉字的原因那是不是表示这部分也没问题
然后就 停止思考了》。。
请求大家的帮助 按理说会打印很多图片地址的吧

  • 写回答

2条回答 默认 最新

  • ash062 2022-12-28 15:23
    关注

    为什么解码不了,因为返回的是一张图片。。。
    可以加上这两行看一下

    res = requests.get(url = p_url, headers = p_headers)
    with open('.\\640.jpg', 'wb') as f: f.write(res.content)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月5日
  • 已采纳回答 12月28日
  • 创建了问题 12月28日

悬赏问题

  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
  • ¥15 Windows11, backspace, enter, space键失灵