爬虫爬出来的列表是空的

import requests
import re
if __name__=='__main__':
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56'}
    url='https://www.qiushibaike.com/imgrank/'
    #使用通用爬虫对URL对应的一整张页面进行爬取
    page_text=requests.get(url=url,headers=headers).text
    #使用聚焦爬虫对页面中所有图片进行解析、提取
    ex='<div class="thumb"><a href=".*?"target="_blank"><img src=".*?"alt=".*?"class="illustration" width="100%" height="auto"></a></div>'
    img_src_list=re.findall(ex,page_text,re.S)
    print(img_src_list)

D:\phython\anaconda\python.exe D:/phython/pycham/练习/爬虫练习/聚焦爬虫.py
[]

Process finished with exit code 0

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-02-05 11:48
关注
不建议用re进行页面解析，用bs4库解析，代码如下：

import requests

from bs4 import BeautifulSoup as bs

#import re

if __name__=='__main__':

    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56'}

    url='https://www.qiushibaike.com/imgrank/'

    #使用通用爬虫对URL对应的一整张页面进行爬取

    page_text=requests.get(url=url,headers=headers).text

    #使用聚焦爬虫对页面中所有图片进行解析、提取

    soup=bs(page_text,'lxml')

    img_src=soup.select('div.thumb img')

    img_list=[]

    for tag in img_src:

        img_list.append("https:"+tag['src']+","+tag['alt'])

    print(img_list)

输出图片链接地址和标签名

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
python爬虫爬网页部分内容空白，但源码可以看到，已解决
2020-12-22 19:08

奇怪的同一个网站同一个榜单，只是页数不同，前若干页能爬取，后若干页就爬取不了，一度怀疑是不允许爬。最后终于发现原因！因为Cookie找错了（kao！！！！！）注意要用这里的cookie！（下图是Chrome的开发者...
爬虫一直遇到返回空表格的问题 python 爬虫
2022-03-12 23:06

回答 1 已采纳如果你确定soup没问题的话，那就是你的soup.find_all那里出了问题，你可以单独打印一下看看，应该是你写的条件没有匹配到
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
Python爬虫返还内容为空列表
2022-11-06 13:41

m0_73892503的博客我发现我的爬虫爬取的内容是很多个空列表，并且因此卡在这里无法运作。经过查询资料我得知，像是新闻，资讯这种动态更新的网址，用普通的检查获取源代码的方法，是无法获取到你想要获取的内容的。解决...
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
python爬虫爬到中间报错 python selenium 爬虫
2023-02-27 15:28

回答 3 已采纳 ..谢邀。页数有点多，就不跑完测了。报错是list index out of range,如果是在371页报的错，跟最后一页条数不够没啥关系。那首先317页和316页有啥区别？是317页就不够40条
python爬虫，当正则表达式无法匹配，怎么输出空字符 python 有问必答正则表达式爬虫
2021-09-01 16:19

回答 3 已采纳使用try except环绕即可
万能图片爬虫python
2022-05-22 19:08

当队列为空时，爬虫停止工作，否则爬虫会继续从队列获取网页URL，爬取下一个网页。 Python爬虫基础代码如下： # 导入队列模块 import queue as q # 定义种子URL seed_url = ["url1","url2"] # 定义URL队列 ...
python爬虫没有结果返回 python 爬虫
2023-03-10 15:16

回答 4 已采纳 import requests from lxml import etree import pandas as pd url = 'https://www.jjwxc.net/topten.php
爬虫爬一些网站是总是得到一个空的列表
2021-01-29 15:18

sharkman5的博客爬虫爬一些网站是总是得到一个空的列表 #抓取PTT八卦版的网页原始码（HTML） import urllib.request as req url="https://www.ptt.cc/bbs/Gossiping/index.html" #建立一个Request物件，附加Request Headers 的资讯 ...
【Python爬虫】第一课 Python爬虫环境与爬虫简介
2022-09-14 20:32

笔触狂放的博客使用网络爬虫爬取网络数据首先需要了解网络爬虫的概念和主要分类，各类爬虫的系统结构，运作方式，常用的爬取策略，以及主要的应用场景，同时，出于版权和数据安全的考虑，还需要了解目前有关爬虫应用的合法性及爬取...
没有解决我的问题, 去提问

悬赏问题

¥20 sub地址DHCP问题
¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大

爬虫爬出来的列表是空的

1条回答 默认 最新

悬赏问题

1条回答默认最新