Python爬取豆瓣读书top250

使用Python网络爬虫获取豆瓣读书top250数据，并使用NumPy和Pandas对数据进行处理，最后使用Matplotlib的Pyplot进行数据可视化展示。
要求：
1．使用Python网络爬虫从豆瓣读书网站上爬取某top250的数据（书名，作者，出版社，发行年份，价格，评分，评价人数），并将数据统计写入数据表格中，按照发行年份升序保存。
2．根据数据，进行数据
（1）根据评分计算最小值，最大值，均值以及标准差
（2）根据价格，自定义价格区间，统计各区间的书籍数量
3．绘制折线图
（1）根据年份绘制价格折线图。
（2）根据发行年份，绘制电影数量折线图。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

13条回答默认最新

社区专家-Monster-XH 2023-12-19 14:20

关注

基于Monster 组和AIGC的调写：若有帮助，还望采纳~~：

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'SimHei'
# 数据加载
file_path = 'douban_books_sorted.csv'
df = pd.read_csv(file_path)

def clean_price_v2(price_str):
    price_str = price_str.replace('CNY', '').replace('NT$', '').replace('元', '').strip()
    price_str = price_str.split('/')[0]
    try:
        return float(price_str)
    except ValueError:
        return None

# 应用新的价格清洗函数
df['价格'] = df['价格'].apply(clean_price_v2)

# 移除价格列中的NaN值
df = df.dropna(subset=['价格'])

# 定义价格区间
price_bins = [0, 10, 20, 30, 50, 100, df['价格'].max()]
price_labels = ['0-10元', '10-20元', '20-30元', '30-50元', '50-100元', '100元以上']

# 统计各价格区间的书籍数量
df['价格区间'] = pd.cut(df['价格'], bins=price_bins, labels=price_labels, right=False)
price_interval_counts = df['价格区间'].value_counts().sort_index()

# 处理出版年份
df['出版年份'] = pd.to_datetime(df['出版年份'], errors='coerce')
df = df.dropna(subset=['出版年份'])
df['出版年份'] = df['出版年份'].dt.year

# 平均价格折线图
yearly_avg_price = df.groupby('出版年份')['价格'].mean()

# 书籍数量折线图
yearly_book_count = df['出版年份'].value_counts().sort_index()

# 绘图
plt.figure(figsize=(14, 6))

# 价格折线图
plt.subplot(1, 2, 1)
plt.plot(yearly_avg_price, marker='o', linestyle='-', color='b')
plt.title('年份与平均价格')
plt.xlabel('年份')
plt.ylabel('平均价格 (元)')
plt.xticks(rotation=45)

# 书籍数量折线图
plt.subplot(1, 2, 2)
plt.plot(yearly_book_count, marker='o', linestyle='-', color='r')
plt.title('年份与书籍数量')
plt.xlabel('年份')
plt.ylabel('书籍数量')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

# 输出价格区间统计结果
print(price_interval_counts)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(12条)

报告相同问题？

关注问题

Python 爬取豆瓣电影Top250
2020-12-21 03:51

【Python 爬虫爬取豆瓣电影Top250】\n\n在Python编程中，爬虫技术是一种用于自动获取网页内容的工具，它能够帮助我们高效地抓取网络上的大量信息。本教程将介绍如何使用Python来爬取豆瓣电影Top250的电影封面和基本...
Python爬取豆瓣电影Top250[项目代码]
2025-11-25 15:16

文章详细介绍了通过Python编程语言实现对豆瓣电影Top250榜单的爬取过程，涉及了网络爬虫的构建、网页数据解析、以及数据存储到Excel的技术流程。首先，文章指导读者如何设置网络爬虫，包括导入必要的Python模块，...
Python爬取豆瓣电影Top250[项目源码]
2025-11-17 07:00

在本文中，我们将深入了解如何利用Python编程语言从豆瓣网站抓取最受欢迎的电影列表——豆瓣电影Top250。项目源码的开发流程涵盖了从发出网络请求开始，直到将收集到的数据整理并保存至Excel表格为止的各个步骤。 ...
用爬虫爬取豆瓣电影TOP250，并用PythonTkinter实现GUI展示与电影信息检索
2021-06-23 16:50

在爬取豆瓣电影Top250时，可以考虑使用API，但如果仅用于学习和小规模项目，直接爬取网页内容可能更灵活。不过，如果要进行大规模数据抓取，建议遵循豆瓣的API政策并申请认证。 3. **Python爬虫实现**：使用`...
Python爬取豆瓣电影Top250并进行数据分析.docx
2025-06-30 22:56

本篇文档介绍了如何利用Python爬取豆瓣电影Top250的数据，并进一步进行数据分析。这一过程不仅对爬虫爱好者有着重要的意义，也对理解如何从海量网络数据中提取有价值信息提供了实践案例。首先，文档强调了爬取豆瓣...
Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息
2023-12-21 20:09

Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息知识领域：数据爬取、数据分析、Python编程技术关键词： Python、网络爬虫、数据抓取、数据处理内容关键词：豆瓣电影、排行榜、数据...
【Python 爬虫案例】爬取豆瓣读书Top250书籍信息，并保存到表格
2023-11-17 14:58

Bsode的博客学会爬取网站数据，用于数据分析
用python爬虫爬取豆瓣电影top250的信息
2024-04-05 21:27

总的来说，通过Python爬虫爬取豆瓣电影Top250的信息，不仅可以锻炼我们的编程能力，还能帮助我们获取丰富的电影数据，进行深度挖掘和个性化分析。这个过程涵盖了网络请求、HTML解析、数据存储和初步分析等多个方面，...
python爬取豆瓣图书Top250的图书信息代码+使用说明
2023-11-27 22:39

IT~编程的博客【代码】python爬取豆瓣图书Top250的图书信息代码+使用说明。
5分钟使用Python爬取豆瓣TOP250电影榜.
2021-07-04 15:16

**爬取豆瓣TOP250电影榜** 1. **URL识别**：首先，我们需要知道豆瓣TOP250电影榜的URL，通常是`https://movie.douban.com/top250`。这是爬虫的第一步，确定要爬取的页面。 2. **发送请求**：使用`requests.get()`...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月19日

Python爬取豆瓣读书top250

13条回答 默认 最新

基于Monster 组和AIGC的调写：若有帮助，还望采纳~~：

问题事件

13条回答默认最新