gqjywyjhfls 2022-12-28 14:44 采纳率: 100%
浏览 38
已结题

爬虫数据解析的时候出现的问题?

在做爬虫的时候本来打算用正则节选出来的图片
但是最后节选出来的是【】
代码如下

import requests
import re
p_url = "https://mmbiz.qpic.cn/mmbiz_jpg/aMVBs00R3EpUGSsB62EkEcrG1IbztbvfZb2ibaSiaJFXwWTC38f1Esw43ynZAmvzag79QJ1dqQ6aRkyicRZM3UK6A/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1"
zz = '<img.*?src="(.*?)"'
p_headers = {
      'User Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
}
page_data = requests.get(url = p_url, headers = p_headers).text
image_list = re.findall(zz, page_data, re.S)
print(image_list)
print("爬取结束")

print出来一个[]
试着想看是不是requests.get那边的问题 然后试着print page_data结果解码不出来
但我想解码不出来是不是有部分是汉字的原因那是不是表示这部分也没问题
然后就 停止思考了》。。
请求大家的帮助 按理说会打印很多图片地址的吧

  • 写回答

2条回答 默认 最新

  • ash062 2022-12-28 15:23
    关注

    为什么解码不了,因为返回的是一张图片。。。
    可以加上这两行看一下

    res = requests.get(url = p_url, headers = p_headers)
    with open('.\\640.jpg', 'wb') as f: f.write(res.content)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月5日
  • 已采纳回答 12月28日
  • 创建了问题 12月28日

悬赏问题

  • ¥15 renpy的jump语句后支线lable报错
  • ¥15 静电纺丝煅烧后如何得到柔性纤维
  • ¥15 (标签-react native|关键词-镜像源)
  • ¥100 照片生成3D人脸视频
  • ¥15 伪装视频时长问题修改MP4的时长问题,
  • ¥15 JETSON NANO
  • ¥15 VS开发qt时如何在paintgl函数中用pushbutton控制切换纹理
  • ¥20 关于 openpyxl 处理excel文件地问题
  • ¥15 MS中不知道高分子的构型怎么构建模型
  • ¥60 QQOP数据,什么是op数据号,怎么提取op数据!能不能大量提取(语言-c语言)