Smart猪 2025-07-31 20:32 采纳率: 0%

获取豆瓣电影所有分类，所有好评区间，所有页的全部电影数据解析字段：标题，评分，评价人数，演员列表=

获取豆瓣电影所有分类，所有好评区间，所有页的全部电影数据
解析字段：标题，评分，评价人数，演员列表=

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

檀越@新空间 2025-07-31 20:33

关注

晚上好🌙🌙🌙
本答案参考通义千问

要获取豆瓣电影所有分类、所有好评区间、所有页的全部电影数据，并解析出标题、评分、评价人数、演员列表字段，我们需要进行以下步骤：

一、项目目标

获取豆瓣电影的所有分类（如：剧情、喜剧、动作等）；
遍历每个分类下的所有好评区间（如：9.0以上、8.0-9.0等）；
爬取每个分类和好评区间的所有页的电影数据；
提取每部电影的：
- 标题
- 评分
- 评价人数
- 演员列表

二、技术方案

1. 抓取豆瓣电影分类

使用 requests 或 selenium 发送请求到豆瓣电影主页。
解析页面中的分类链接（如：https://movie.douban.com/subject_search?cat=1001）

示例代码：

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/subject_search?cat=1001'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有分类
categories = soup.find_all('div', class_='category')
for category in categories:
    print(category.get_text())

2. 获取每个分类下的好评区间

每个分类页面中会有“评分区间”选项，例如：9.0以上、8.0-9.0等。
需要遍历这些评分区间。

示例代码：

base_url = 'https://movie.douban.com/subject_search?cat={}&search_text='
category_id = '1001'  # 剧情类
ratings = ['9.0+', '8.0-9.0', '7.0-8.0', '6.0-7.0', '5.0-6.0']

for rating in ratings:
    url = base_url.format(category_id) + f'&rating={rating}'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    # 处理当前评分区间的电影数据

3. 爬取所有页的电影数据

每个分类和评分区间下可能有多个页面，需要遍历翻页。

示例代码：

page = 1
while True:
    url = f'https://movie.douban.com/subject_search?cat={category_id}&search_text=&rating={rating}&start={page*15}'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    movies = soup.find_all('div', class_='item')
    if not movies:
        break
    
    for movie in movies:
        title = movie.find('a').get('title')
        score = movie.find('span', class_='rating_nums').text.strip()
        comment_count = movie.find('div', class_='star').find_all('span')[-1].text.strip()
        actors = [actor.get_text() for actor in movie.find_all('p', class_='pl')]
        
        print(f"标题: {title}")
        print(f"评分: {score}")
        print(f"评价人数: {comment_count}")
        print(f"演员列表: {', '.join(actors)}")
        print('-' * 50)

    page += 1

4. 数据存储

可以将数据保存为 CSV 文件或数据库（如 MySQL、MongoDB）。

示例代码（保存为 CSV）：

import csv

with open('douban_movies.csv', 'w', encoding='utf-8-sig', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['标题', '评分', '评价人数', '演员列表'])
    
    for movie in all_movies:
        writer.writerow([movie['title'], movie['score'], movie['comment_count'], ', '.join(movie['actors'])])

三、关键注意事项

反爬机制：豆瓣对爬虫有严格的限制，建议使用 requests + headers 或 Selenium 模拟浏览器行为。
速率控制：避免频繁请求导致 IP 被封，建议设置随机延迟（如 1~3 秒）。
合法性：确保遵守《中华人民共和国计算机信息网络国际联网管理暂行规定》及网站的 robots.txt 规则。

四、完整代码示例（整合）

import requests
from bs4 import BeautifulSoup
import csv
import time
import random

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

def get_category_list():
    url = 'https://movie.douban.com/subject_search?cat=1001'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    return [link.get('href') for link in soup.find_all('a', href=True) if 'cat=' in link.get('href')]

def parse_movie_page(url):
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    movies = soup.find_all('div', class_='item')
    data = []
    for movie in movies:
        title = movie.find('a').get('title')
        score = movie.find('span', class_='rating_nums').text.strip()
        comment_count = movie.find('div', class_='star').find_all('span')[-1].text.strip()
        actors = [actor.get_text() for actor in movie.find_all('p', class_='pl')]
        data.append({
            'title': title,
            'score': score,
            'comment_count': comment_count,
            'actors': actors
        })
    return data

def main():
    categories = get_category_list()
    ratings = ['9.0+', '8.0-9.0', '7.0-8.0', '6.0-7.0', '5.0-6.0']
    all_data = []

    for category in categories:
        category_id = category.split('=')[1]
        for rating in ratings:
            page = 0
            while True:
                url = f'https://movie.douban.com/subject_search?cat={category_id}&search_text=&rating={rating}&start={page*15}'
                try:
                    data = parse_movie_page(url)
                    if not data:
                        break
                    all_data.extend(data)
                    print(f"已抓取 {len(all_data)} 条数据")
                    time.sleep(random.uniform(1, 3))
                except Exception as e:
                    print("Error:", e)
                    break
                page += 1

    with open('douban_movies.csv', 'w', encoding='utf-8-sig', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(['标题', '评分', '评价人数', '演员列表'])
        for item in all_data:
            writer.writerow([item['title'], item['score'], item['comment_count'], ', '.join(item['actors'])])

if __name__ == '__main__':
    main()

五、总结

重点实现步骤：
1. 获取豆瓣电影分类；
2. 遍历每个分类下的评分区间；
3. 爬取每页的电影数据；
4. 提取所需字段并保存为文件。
关键点：
- 反爬策略：使用合理的 headers 和延时；
- 数据结构：使用字典存储每条电影信息；
- 输出格式：CSV 文件便于后续分析。

如需进一步扩展功能（如自动识别分类、动态爬取更多评分区间），可结合 Selenium 或 Scrapy 进行优化。

报告相同问题？

关注问题

基于多种机器学习算法的豆瓣电影评分预测及可视化分析
2025-10-09 10:45

王小王-123的博客通过爬取豆瓣电影数据，设计档期特征工程，采用多模型对比（随机森林最优，R²≈0.87）实现评分预测，并结合文本挖掘分析影评语义。系统提供数据看板、预测接口等功能，创新性地将结构化数据与文本分析结合，为电影...
毕业设计：Python豆瓣电影可视化系统电影数据爬虫数据清洗+数据可视化 Flask+requests （MySQL+Echarts 源码+文档）✅
2025-10-12 10:39

源码之家的博客毕业设计：Python豆瓣电影可视化系统电影数据爬虫数据清洗+数据可视化 Flask+requests （MySQL+Echarts 源码+文档）✅
Python实战项目：豆瓣热映电影30天评分分析
2025-09-08 04:24

影评周公子的博客本文还有配套的精品资源，点击获取简介：《Python实战项目：豆瓣热映电影30天评分分析》是一个基于Python的实战项目，旨在通过网络爬虫技术获取豆瓣网站上热门电影30天内的评分变化数据，并进行清洗、处理和可视化...
Python豆瓣电影可视化系统电影数据爬虫数据清洗+数据可视化 Flask+requests （MySQL+Echarts 源码+文档）✅
2026-01-18 22:24

vx_biyesheji0001的博客系统采用Flask框架、MySQL数据库和requests爬虫技术，实现从豆瓣平台采集电影数据（包括制片地区、类型、评分等），经过数据清洗后存储到数据库，并通过Echarts进行多维度可视化展示。系统提供饼图、柱状图、折线图...
基于 Python 的豆瓣电影《八佰》数据爬取与可视化分析
2025-09-22 10:45

计算机毕业论文辅导的博客【摘要】本文基于Python技术栈构建了一套影评数据分析系统，以电影《八佰》为例，实现了豆瓣影评数据的采集、清洗、情感分析和可视化展示。系统采用Requests+BeautifulSoup爬取数据，Jieba分词处理文本，PaddleHub...
Python豆瓣电影可视化系统电影数据爬虫数据清洗+数据可视化 Flask+requests （MySQL+Echarts 源码+文档）
2025-12-27 21:38

q_3548885153的博客 Python豆瓣电影可视化系统电影数据爬虫数据清洗+数据可视化 Flask+requests （MySQL+Echarts 源码+文档）
豆瓣电影Python爬虫（ajax动态加载，详细过程附源码）
2024-08-08 12:32

ksksksj的博客 豆瓣电影排行榜python爬虫(详细过程附源码)
【案例分析】基于IMDb数据集的印度电影信息剖析
2023-12-10 14:23

madivens的博客 Votes 参评人数对所有评价的数据汇总反映了大众的总体期待程度及电影热度。 Director 电影导演电影生产的组织者和领导者知名导演的影响力有时甚至超过明星大牌,在进行评分时有一定的分数加成。 Actor 1 第一...
F060 基于BERTvue+flask电影评论情感分析系统
2025-12-26 15:06

B站麦麦大数据的博客系统核心功能包括电影信息管理、情感三分类分析（积极/中立/消极）、个性化推荐（UserCF/ItemCF）和多维度数据统计（词云、柱状图等）。通过BERT模型提升情感分析准确率，并实现用户权限分级管理。系统采用Vue.js+...
基于python大数据的电影数据分析可视化系统设计与应用
2025-09-14 14:51

赵谨言的博客系统采用Python语言结合Pandas、NumPy进行数据清洗与处理，利用Scrapy框架从多个公开平台（如IMDb、豆瓣电影）爬取超过10万条电影元数据，涵盖评分、票房、上映年份、类型、导演及演员等字段。通过MongoDB存储非结构...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月31日

获取豆瓣电影所有分类，所有好评区间，所有页的全部电影数据 解析字段：标题，评分，评价人数，演员列表=

5条回答 默认 最新

一、项目目标

二、技术方案

1. 抓取豆瓣电影分类

示例代码：

2. 获取每个分类下的好评区间

示例代码：

3. 爬取所有页的电影数据

示例代码：

4. 数据存储

示例代码（保存为 CSV）：

三、关键注意事项

四、完整代码示例（整合）

五、总结

问题事件

获取豆瓣电影所有分类，所有好评区间，所有页的全部电影数据解析字段：标题，评分，评价人数，演员列表=

5条回答默认最新