关于#python#的问题：我想知道这段python爬虫代码有什么问题，为什么爬取不到我想要的信息呀代码如下：

我想知道这段爬虫代码有什么问题，为什么爬取不到我想要的信息呀
代码如下：

from lxml import etree
import requests
import csv
import time

fp = open('D:/Users/jack/Desktop/bilibili.csv', 'wt', newline='', encoding='utf-8-sig')
writer = csv.writer(fp)

writer.writerow(('up主', '视频名字', '视频链接', '时长', '观看人数', '上传时间'))

page = range(2, 34)
o = range(30, 510, 30)

urls = ['https://search.bilibili.com/video?keyword=python&from_source=webtop_search&spm_id_from=333.1007&search_source=3&page={}&o={}'.format(number, str(i)) for number, i in zip(page, o)]
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                  '(KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'
}

for url in urls:
    print(url)
    time.sleep(2)
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//div[@class="bili-video-card"]')
# infos = selector.xpath('//div[@id="i_cecream"]')
    for info in infos:
        up_name = info.xpath('div/div/p/a/span[1]')
        print(up_name)
        name = info.xpath('div/div/a/h3')
        print(name)
        url = info.xpath('div/div/a/@href')
        print(url)
        data = info.xpath('a/div/div[2]/div/span')
        print(data)
        see = info.xpath('a/div/div[2]/div/div/span[1]/span/text()')
        print(see)
        on_time = info.xpath('div/div/p/a/span[2]/text()')
        print(on_time)
        writer.writerow((up_name, name, url, data, see, on_time))
fp.close()

起初我的解决办法是去掉infos这个变量，但是不行，我还将infos变量改变了一下还是没用，但是我在网页试的时候是可以的

会的宝宝可以帮我看一下吗？万分感谢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Dick_不周 2023-02-16 14:57
关注
。。我试了一下，确实在构造infos时，XPATH没问题，但是infos没有值

这里看到protected Attributes 了吗，说明哔哩哔哩还是有反爬机制的。
百度一下~
https://ask.csdn.net/questions/7479422
这篇文章就解释了需要带请求头才能获取到具体的信息。
如果有用请采纳，十分感谢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python爬虫实战：爬取视频到本地，超详细实战教程
2025-09-17 11:09

xcLeigh的博客接着分阶段讲解核心功能，从单视频爬取基础实现，到批量爬取合集的思路与代码（含反爬、中文乱码解决），还提及自定义视频质量与格式的方法。同时强调遵守网站协议、防 IP 封禁等注意事项，给出常见问题排查方案。...
Python爬虫：为什么你爬取不到网页数据
2022-08-09 19:01

坚持不懈的大白的博客之前小编写了一篇关于爬虫为什么爬取不到数据文章（文章链接为：https://liuze.blog.csdn.net/article/details/105965562），但是当时小编也是胡乱编写的，其实里面有很多问题的，现在小编重新发布一篇关于爬虫爬取...
python爬取招聘网信息并保存为csv文件
2023-04-02 19:11

【Python爬虫获取招聘网站信息并保存为CSV文件】在Python编程中，网络爬虫是一种常用的技术，用于自动化地从互联网上抓取信息。在这个场景中，我们将学习如何使用Python来爬取招聘网站上的职位信息，并将其存储为...
最新Python爬虫实战（入门爬虫篇）——案例2：根据关键字爬取图片批量下载到本地（附上完整爬虫代码）
2025-12-30 10:52

小满大王i的博客本次案例通过Python爬虫技术实现了图片的批量下载。代码采用模块化设计，函数实现cookies的自动解析，简化了配置流程，涵盖请求、解析、存储的完整流程。学习重点包括：抓包工具定位数据源、分页参数分析（pn和gsm）...
python爬虫入门教程：爬取网页图片
2022-04-05 15:25

plexming的博客在现在这个信息爆炸的时代，要想高效的获取数据，爬虫是非常好用的。而用python做爬虫也十分简单方便，下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程：准备工作语言：python IDE：pycharm 首先是要...
2024年Python最全Python爬虫实战：爬取股票信息_python 获取a股所有代码(1)
2024-04-30 20:57

2401_84585339的博客 count = 0try:# 将获取到的数据封装进字典import re。
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
python网络爬虫爬取整个网页
2018-11-19 10:27

Python网络爬虫是一种用于自动化获取网页内容的程序，它能够帮助我们从互联网上抓取大量信息，例如新闻、数据、文章等。在这个过程中，我们主要会用到Python的一些库，如requests、BeautifulSoup和Scrapy等。下面...
Python 爬虫入门：从数据爬取到转存 MySQL 数据库
2025-06-25 22:39

覃炳文20230322027的博客本文介绍了一个Python爬虫入门项目，使用requests和BeautifulSoup爬取豆瓣电影Top250数据并存入MySQL数据库。主要内容包括：1)使用requests获取网页内容并设置请求头；2)利用BeautifulSoup解析HTML提取电影排名、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月16日

关于#python#的问题：我想知道这段python爬虫代码有什么问题，为什么爬取不到我想要的信息呀代码如下：

3条回答 默认 最新

问题事件

3条回答默认最新