爬虫爬取豆瓣电影top250

为何我写的爬虫爬取豆瓣top250个电影，他重复爬了前25个电影10

def get_first_text(data_list):
        try:
            return data_list[0].strip()
        except:
            return "未获取到数据"
urls=['https://movie.douban.com/top250?start={i*25}&filter=' for i in range(10)]
count=1
for url in urls:
    print(f"爬取:{url}")
    res=requests.get(url=url,headers=headers,timeout=10)
    print(res.status_code)
    html=etree.HTML(res.text)
    lis=html.xpath('//*[@id="content"]/div/div[1]/ol/li')
    print(len(lis))

    for li in lis:
        title=get_first_text(li.xpath('./div/div[2]/div[1]/a/span[1]/text()'))
        src=get_first_text(li.xpath('./div/div[2]/div[1]/a/@href'))
        director=get_first_text(li.xpath('./div/div[2]/div[2]/p[1]/text()'))
        score=get_first_text(li.xpath('./div/div[2]/div[2]/div/span[2]/text()'))
        comment=get_first_text(li.xpath('./div/div[2]/div[2]/div/span[4]/text()'))
        summary=get_first_text(li.xpath('./div/div[2]/div[2]/p[2]/span/text()'))

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-11-01 09:36
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

问题分析

你正在尝试爬取豆瓣电影top250的数据，但发现爬虫重复爬取了前25个电影的数据。

解决方案

可能的原因是豆瓣网站对爬虫有反爬虫机制，或者是你的爬虫代码有问题。以下是一些可能的解决方案：

检查爬虫代码: 确保你的爬虫代码正确地解析了豆瓣网站的HTML结构，避免了重复爬取数据。
使用代理: 使用代理服务器来访问豆瓣网站，避免被反爬虫机制检测到。
增加睡眠时间: 在爬取数据之间增加睡眠时间，避免被反爬虫机制检测到。
使用更好的爬虫库: 使用更好的爬虫库，如Scrapy，来爬取数据。

核心代码

import requests from bs4 import BeautifulSoup def get_douban_top250(): url = 'https://movie.douban.com/top250' headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'html.parser') # 解析数据 data_list = soup.find_all('div', class_='item') # 处理数据 for data in data_list: # ... return data_list # 使用代理 proxies = {'http': 'http://your_proxy:your_password@your_proxy_ip:your_proxy_port'} response = requests.get(url, headers=headers, proxies=proxies)

注意: 这个代码片段是为了示例目的，需要根据实际情况进行调整。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫 | 爬取豆瓣电影Top250的数据
2024-11-08 10:41

聪明的墨菲特i的博客简单记录一下，实现爬取豆瓣电影Top 250的数据。
python爬虫豆瓣电影TOP250,以及数据化分析
2022-01-20 23:30

在本项目中，我们主要探讨的是使用Python编程语言进行网络爬虫来抓取豆瓣电影TOP250的数据，并对其进行后续的数据分析。这个过程涉及到多个关键的IT知识点，包括Python的基础语法、网络爬虫的实现、数据处理以及数据...
2024最新golang爬取豆瓣电影top250代码
2024-04-02 18:13

ppppppppo的博客我这里只写了爬取top250电影名字的代码，还要爬其他标签的话可以自己改。
Python爬取豆瓣电影Top 250，豆瓣电影评分可视化，豆瓣电影评分预测系统
2024-03-18 09:57

程序员徐师兄的博客基于Python flask 的豆瓣电影排行榜，豆瓣电影评分可视化，豆瓣电影评分预测系统，本系统包括了影视系统的爬虫与分析。通过采用Python编程语言，使用flask框架搭建影视系统，并使用相关技术实现对豆瓣网站的爬取、...
最新豆瓣电影Top250爬虫（附完整代码）
2024-08-07 21:44

python艺术家~的博客爬取豆瓣电影TOP250电影数据，并保存到Excel。
Python 爬取豆瓣电影Top250
2021-11-21 21:26

季同学 `的博客爬取数据 datalist = getData(baseurl) savepath = "豆瓣电影Top250.xls" saveData(datalist, savepath) # askURL("https://movie.douban.com/top250?start=") findLink = re.compile(r'') # 创建正则表达式对象 ...
基于Python网络爬虫与Flask框架构建的豆瓣电影Top250数据分析及可视化展示平台_通过高效爬取豆瓣电影Top250榜单数据并进行清洗处理利用Echarts实现多维度数据.zip
2025-12-20 13:30

文章首先介绍了一个基于Python语言开发的网络爬虫项目，该项目专注于从豆瓣网抓取电影Top250的榜单数据。文章详细阐述了整个数据获取的过程，包括网络爬虫的设计原理、实现技术和执行效率。在这个项目中，网络爬虫...
python爬取豆瓣图书Top250
2023-04-26 23:56

喜东东L的博客实验要求：爬取豆瓣图书排行榜书单信息，存储到数据库中，并爬取图书评论进行数据分析，提取关键字做成词云展示。
使用Python爬取豆瓣音乐TOP250排行榜
2023-09-29 01:43

技术征途者的博客在本文中，我将介绍如何使用Python编写一个简单的网络爬虫来获取豆瓣音乐TOP250的排行榜信息。在上面的代码中，我们首先调用get_top250_html函数获取排行榜页面的HTML内容，然后将其传递给parse_top250函数进行解析...
一分钟学会python爬取豆瓣top250电影
2021-09-06 22:28

我好瞌睡呀.的博客一分钟python爬取豆瓣top250电影真想说：python的强大的库，各种库。啧啧啧。是一些语言不能比的。但是个人感觉如果是要写大型后端的话，python还是不太行的运行效果爬取网页话不多说，直接看代码（代码都有...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月1日

爬虫爬取豆瓣电影top250

4条回答 默认 最新

问题事件

4条回答默认最新