爬取豆瓣网TOP250名单时有数据缺失

最近在学习爬虫，做“获取豆瓣网TOP250名单”这个案例的时候发现有两部电影的年份无法匹配导致无法获取，分别是
疯狂的麦克斯4：狂暴之路 2015年
黑客帝国 1999年
代码如下：

import re
import requests

url = "https://movie.douban.com/top250"
start = 0
myHeaders = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"
}
while start < 250:
    myParams = {
        "start": start,
        "filter": ""
    }
    resp = requests.get(url, headers=myHeaders, params=myParams)
    getResult = re.finditer('<li>.*?<span class="title">(?P<filmName>.*?)</span>.*?'
                            '<br>.*?(?P<year>\d{4})&nbsp;/&nbsp;(?P<region>.*?)&nbsp;.*?'
                            '<span class="rating_num".*?>(?P<score>.*?)</span>.*?'
                            '<span>(?P<remarkNum>.*?)人评价.*?</li>', resp.text, re.S)
    for ele in getResult:
        print(ele.groupdict())
    start += 25

希望各位赐教，我这个年份匹配这里这么写为什么就只是匹配不到这两部电影的信息呢，其他248部都能获取

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2022-01-14 22:04
关注
黑客帝国的上一部电影大闹天宫的上映时间有多个，并不是下面这个正则需要的格式

.*?(?P<year>\d{4}) / 

所以

' .*?(?P<year>\d{4}) / 

这部分正则直接匹配到黑客帝国的时间去了，大闹天宫的时间变成黑客帝国的，后续的区域，评分之类都边黑客帝国的，另外一部电影的上一个节点应该也是多个上映时间导致被舍去了。

正则改下面的就能匹配出来，但是会有空格，换行之类的，需要strip去掉

getResult = re.finditer('<li>.*?(?P<filmName>.*?).*?' ' .*?(?P<year>.*?) / (?P<region>.*?) .*?' '(?P<score>.*?).*?' '(?P<remarkNum>.*?)人评价.*?</li>', text, re.S) for el in getResult: d=el.groupdict() d['year']=d['year'].strip()#去掉首位空白 print(d)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python 爬虫案例：爬取豆瓣电影 Top250 数据
2025-09-01 20:37

AI 嗯啦的博客程序入口（执行爬虫流程） if __name__ == "__main__": print("开始爬取豆瓣电影 Top250 数据...") crawl_douban_top250() # 1. 爬取数据 save_to_excel() # 2. 保存数据 print("爬取任务完成！") 四、代码解析...
爬取豆瓣电影Top250进行数据清洗并存储到MongoDB
2024-06-25 03:17

LZYuu0的博客 pandas，requests，matplotlib，lxml，python爬虫，mongodb数据库，python数据分析，数据可视化，数据预处理
爬取豆瓣电影 Top250 信息
2025-03-13 23:09

爬取豆瓣电影Top250信息是一项涉及到网络爬虫技术的数据采集活动，其目的是为了获取豆瓣网站上排名前250位的电影信息。这些信息通常包括电影名称、评分、评论数量、导演、演员、上映年份以及简短的剧情介绍等。由于...
python爬虫豆瓣电影TOP250,以及数据化分析
2022-01-20 23:30

在本项目中，我们主要探讨的是使用Python编程语言进行网络爬虫来抓取豆瓣电影TOP250的数据，并对其进行后续的数据分析。这个过程涉及到多个关键的IT知识点，包括Python的基础语法、网络爬虫的实现、数据处理以及数据...
Python爬取、存储、分析、可视化豆瓣电影Top250
2022-03-30 11:57

ZZmmm~~~~的博客 Python爬取、存储、分析、可视化豆瓣电影Top250 网站链接： ...@文章目录 ...在Python的基础上爬取豆瓣电影Top250的数据信息（老师的案例作业）主要知识点：Python、pymysql、pandas、pyecharts、matpl
Python 爬虫入门：从零爬取豆瓣电影 Top250 数据
2026-01-02 16:17

2601_94847951的博客爬虫是 Python 最经典的应用场景之一，通过爬虫我们可以快速获取互联网上的公开数据，用于数据分析、可视化等后续操作。本文将以豆瓣电影 Top250为例，...“”“爬取豆瓣Top250所有页面”“”五、代码说明与优化方向。
【Python 爬虫案例】爬取豆瓣读书Top250书籍信息，并保存到表格
2023-11-17 14:58

Bsode的博客学会爬取网站数据，用于数据分析
豆瓣电影Top250数据爬取与可视化分析（简单好上手）
2025-07-14 16:55

吃手机用谁付的款的博客本文介绍了爬取豆瓣电影Top250数据并进行可视化分析的过程。首先使用Python的requests和BeautifulSoup库爬取电影信息（包括片名、评分、导演等），通过正则表达式提取结构化数据并保存为Excel文件。随后利用pandas和...
Python 爬虫实战：爬取豆瓣电影 Top250 数据（附代码）
2025-10-31 21:02

2501_93894370的博客豆瓣Top250页面规律： $$ \text{url} = \text{"https://movie.douban.com/top250?start="} + 25\times(n-1) $$ 其中 $n$ 为页码（$1 \leq n \leq 10$)
爬取豆瓣电影TOP250数据兼视图化分析
2025-04-25 18:51

绝对杀猪刀的博客爬取豆瓣电影TOP250数据以及视图化处理。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月14日

爬取豆瓣网TOP250名单时有数据缺失

2条回答 默认 最新

问题事件

2条回答默认最新