爬虫爬取时返回空列表

代码如下
写一半测试时发现返回一堆空列表



```python
import sys
import re
import urllib.request
import xlwt
from bs4 import BeautifulSoup

#定义正则表达式筛选规则
findLink=re.compile(r'<a href="(.*?)" target="_blank" class="title">.*?</a>',re.S)#视频链接

#获取对应url网页的数据
def get_url(url):
    head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.34"}#模拟计算机访问网页
    request = urllib.request.Request(url,headers=head)#以headers身份访问url网页
    html=''
    try:
        reponse = urllib.request.urlopen(request)
        html = reponse.read().decode('utf-8')
    except urllib.error.URLError as e:
        if hasattr(e,'code'):
            print(e.code)
        if hasattr(e,'reason'):
            print(e.reason)
    return html

#调用get_url函数获取指定网页数据，以html形式存储
def get_data(baseurl):
    data_list=[]
    html=get_url(baseurl)#获取get_url爬到的数据
    soup=BeautifulSoup(html,'html.parser')#定义使用html解读器解读数据的变量soup
    for item in soup.find_all('div',class_="content"):
        item=str(item)
        link=re.findall(findLink,item)#寻找链接
        #data_list.append(link)#保存链接
        print(link)
    return data_list
get_data('https://www.bilibili.com/v/popular/rank/all')

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-11-29 20:22
关注
正则去掉class内容，bilibili源代码没有class

findLink=re.compile(r'<a href="(.*?)" target="_blank">.*?</a>',re.S)#视频链接
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取数据返回空列表_Python用xpath爬取数据返回空列表解决
2020-11-29 14:04

weixin_39918043的博客笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段前言：首先需要查看该网页是否可以爬取，通过在URL后加入/robots,txt可以查看。①tbody问题笔者通过谷歌浏览器选取上图...
Python用xpath爬取数据返回空列表解决
2018-12-08 16:20

SL_World的博客笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段 ①tbody问题 URL:2018AAAI的第一篇论文元数据页面页面如下：笔者通过谷歌浏览器选取上图红框内容的xpath如下...
Python爬虫返还内容为空列表
2022-11-06 13:41

m0_73892503的博客我发现我的爬虫爬取的内容是很多个空列表，并且因此卡在这里无法运作。经过查询资料我得知，像是新闻，资讯这种动态更新的网址，用普通的检查获取源代码的方法，是无法获取到你想要获取的内容的。解决...
python爬虫爬取网页表格数据
2020-09-20 17:53

首先初始化一个空列表`urli`用于存储表格数据，然后设定要爬取的网页URL。通过调用`check_link(url)`获取网页内容，`get_contents(urli, rs)`解析并收集表格数据，最后`save_contents(urli)`将数据保存到CSV文件。 ...
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
Python用xpath爬取数据返回空列表解决 python爬虫，关于使用xpath写爬虫获取不到内容，获取到空列表的解决方案
2021-11-26 15:11

'一生所爱的博客之前在做的爬虫都是用的xpath去获取内容，又想偷懒，所以就直接在源码那里直接复制路径，然后就很容易踩雷了（我算是踩了很多坑了，不知道有没有小伙伴和我一样踩过这样的坑）：此时可能会得到如下路径： /...
python爬取数据返回空列表_Xpath在选择器中正确，在代码中返回的是空列表问题...
2020-11-29 14:04

weixin_39712865的博客是元素中有tbody的原因，这个元素是html生成时产生的，在使用xpath解析的时候无法解析，因此返回的列表为空值。2.是因为没有写入获取的内容。比如在xpath选择其中可以使用但是在解析中没有带入//text()三、解决办法...
(不看后悔系列三)python网络爬虫爬取网络视频
2025-03-03 11:50

不正经的程序员的博客其实，爬取网络视频的关键在于数据分析。只有在对数据进行深入分析之后，再着手编写。为了更好地理解，今天我们选择一个简单的网站进行分析。该网站不涉及任何加密，能够方便快捷地提取我们所需的。但是在分析该网站...
python爬虫爬取网站
2024-01-30 15:11

啊丢_的博客爬虫爬取豆瓣网站
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析
2023-09-26 12:04

jojo来根易安的博客本次程序只爬取了豆瓣top250电影的...在前面我们已经获取了每一部电影详情页的链接links，如果想要爬取电影的详情页，可以通过for循环遍历列表links，对每一个详情页发起请求，从而获取电影详情页的数据并进行解析。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

爬虫爬取时返回空列表

1条回答 默认 最新

问题事件

1条回答默认最新