python初级爬虫爬出来没有数据

为什么爬出来没有数据的

import pandas as pd
import requests
import re
import time
data_list = []
for i in range(1,5,1):
    print("正在爬取第" + str(i) + "页")
    #构建访问的网址，这个网址可有讲究了
    first = 'https://read.douban.com/ebook/57468782/comments?page='
    last = '&commentType=Review&sort=SCORE_DESC'
    url = first + str(i) + last
    #访问的头文件，还带这个cookie
    headers ={
        # 用的哪个浏览器
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.63',
        # 从哪个页面发出的数据申请，每个网站可能略有不同
        'referer': 'https://read.douban.com/ebook/57468782/comments?page=1&commentType=Review&sort=SCORE_DESC',
        # 哪个用户想要看数据，是游客还是注册用户,建议使用登录后的cookie
        'cookie':'bid=CtjGQQts6qw; _ga=GA1.1.854662765.1661781900; _ga=GA1.3.854662765.1661781900; _gid=GA1.3.317441563.1661781904; __gads=ID=d5118ecfd9b7e0af-2274d7276ad60026:T=1661830434:RT=1661830434:S=ALNI_Mal2pDexGkPbLkfBDTGaasIQBwdVg; _pk_ses.100001.a7dd=*; __gpi=UID=0000093d4aa6ff27:T=1661830434:RT=1661860990:S=ALNI_MaJaflHC8_SKOY1tp75x72g4tBu-g; _ga_RXNMP372GL=GS1.1.1661860989.7.1.1661861051.59.0.0; _pk_id.100001.a7dd=684c82dba8991abc.1661781900.5.1661861051.1661850445.'
        }
    #尝试获取数据（这里的数据应该是从json里面获取的）
    try:
        data = requests.get(url,headers = headers).text
        time.sleep(5)
        result = re.findall('content":"(.*?)"title"',data)
        data_list.extend(result)
    except:
        print("本页爬取失败")
df = pd.DataFrame()
df["评论"] = data_list
df.to_excel("评论_汇总.xlsx")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
快乐小土狗 2022-08-30 23:12
关注
你打印data 的值瞅瞅，里面根本没有你想要的数据。
这个数据是其他url返回的。
你在网页右键点击检查，在选择网络，然后刷新页面，会看见很多url请求，取看这个url请求的响应，那个返回了你要的数据，你就去请求那个url

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫资源：全面掌握爬虫技术的综合指南
2024-12-30 23:28

适合人群：初级至中级水平的Python开发者，特别是对网络爬虫感兴趣的初学者。使用场景及目标：①快速入门并深入了解Python爬虫的基础和进阶技术；②实际动手操作多个爬虫案例，加深对理论的理解与应用；③构建自己...
python单线程爬虫源码加初级教程.rar
2023-01-29 10:23

1. **Python基础**：Python是一种广泛使用的高级编程语言，以其简洁易读的语法著称，是学习爬虫的理想选择。了解Python的基本数据类型、控制结构（如循环和条件语句）、函数和模块的使用是学习爬虫的前提。 2. **...
Python高级爬虫
2024-08-28 18:08

编程的爱好者的博客 Scrapy是一个强大的Python爬虫框架，它提供了丰富的功能，如请求调度、自动下载、数据解析和持久化等。预处理可能包括灰度化、二值化、噪声消除等操作，特征提取则是从图像中提取出有助于识别的特征，如边缘、纹理、...
不踩坑的Python爬虫：Python爬虫开发与项目实战，从爬虫入门 Python
2023-03-21 20:45

对于初级爬虫，可以使用文件系统保存数据，如HTML正文和多媒体文件。随着需求复杂度提升，数据库如SQLite、MySQL和MongoDB等将派上用场，它们能更高效地存储和检索大量数据。面对动态网站，我们需要掌握Ajax和动态...
基于Python语言的爬虫项目设计源码集合
2024-09-30 10:48

Python作为一种高级编程语言，因其简洁易学的语法和强大的库支持，在网络爬虫领域有着广泛的应用。本项目集合了26个精心设计的基于Python语言的爬虫项目源码，为开发者和学习者提供了一个宝贵的学习资源。项目中...
Python：爬虫质数查询程序
2023-03-05 13:14

本程序就是针对这个需求设计的，旨在帮助初级学习者快速掌握Python编程基础，特别是数值处理和算法应用。 **1. Python基础知识** Python是一种高级编程语言，以其简洁明了的语法和强大的功能深受程序员喜爱。对于...
Python课程设计《网络爬虫-中国大学排名课程设计》
2022-05-08 09:13

御剑飞行的程序员的博客网络爬虫（又称为网页蜘蛛，网络机器人，在FOFA社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。...研究网络爬虫的原理并实现爬虫的相关功能，并将爬去
学1个月爬虫就月赚6000？别被骗了，老师傅告诉你爬虫的真实情况
2021-08-01 17:53

退休的龙叔的博客爬虫的四个水平，你在哪一个层次？巅峰爬虫是什么样子？
61节课，零基础Python爬虫48小时速成课-5.7G网盘下载.txt
2025-01-08 11:13

在这个5.7G的《61节课，零基础Python爬虫48小时速成课》中，将向初学者们介绍Python爬虫的基础知识与技能，旨在让没有任何编程背景的学员在短时间内掌握爬虫技术的核心概念，并能够独立完成一些基础的爬虫项目。...
Python爬虫技术和浏览器模拟，验证码识别视频教程
2021-06-10 14:25

Python爬虫技术是一种用于自动化网络数据抓取的编程方法，它是Python编程语言在信息时代的强大应用之一。Python爬虫能够高效地遍历网页，提取所需信息，为数据分析、市场研究、内容聚合等领域提供了便利。首先，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月30日

python初级爬虫爬出来没有数据

1条回答 默认 最新

问题事件

1条回答默认最新