给你糖ya 2022-10-21 21:08 采纳率: 50%
浏览 52

爬虫,正则表达式,爬取整页图片

问题遇到的现象和发生背景

学爬虫“爬取整张页面的图片数据”,跟着视频的步骤走的,但是由于视频的那个页面太老了,已经没了,就又找了一个新页面,按着视频的步骤一点点做的,但是打印出来的那个列表是个空,不知道为什么。用到了正则表达式。

用代码块功能插入代码,请勿粘贴截图
import requests
import re # 使用正则的时候要引用
if __name__ == "__main__":
    url = "https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fr=&sf=1&fmq=1461834053046_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&itg=0&ie=utf-8&word=%E5%A4%B4%E5%83%8F#z=0&pn=&ic=0&st=-1&face=0&s=0&lm=-1"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.7 Safari/537.36'
    }
    # 使用通用爬虫对url对应的整张页面进行爬取(get请求)
    page_text = requests.get(url=url,headers=headers).text # 先以字符串形式获取,用text
    #使用聚焦爬虫将页面中所有的图片进行解析(提取)
    ex = '<div class="imgbox-border">.*?" src="(.*?)" style.*?
' img_src_list = re.findall(ex,page_text,re.S)# 让正则表达式作用到page_text字符串里面.findall返回一个列表,存储img_src print(img_src_list)
运行结果及报错内容

结果就是一个空列表,我想打印出来 img_src_list 列表里面所有的图片数据的链接

  • 写回答

1条回答 默认 最新

  • Li&&Tao 2022-10-21 21:51
    关注

    很简单,你的正则写错了,双引号的个数都不配对,好不

    评论

报告相同问题?

问题事件

  • 创建了问题 10月21日

悬赏问题

  • ¥15 在获取boss直聘的聊天的时候只能获取到前40条聊天数据
  • ¥20 关于URL获取的参数,无法执行二选一查询
  • ¥15 液位控制,当液位超过高限时常开触点59闭合,直到液位低于低限时,断开
  • ¥15 marlin编译错误,如何解决?
  • ¥15 有偿四位数,节约算法和扫描算法
  • ¥15 VUE项目怎么运行,系统打不开
  • ¥50 pointpillars等目标检测算法怎么融合注意力机制
  • ¥20 Vs code Mac系统 PHP Debug调试环境配置
  • ¥60 大一项目课,微信小程序
  • ¥15 求视频摘要youtube和ovp数据集