python爬虫爬取唐诗三百首的二级页面全部代码

爬取古诗词网https://www.gushiwen.cn／中各项分类内容，例如唐诗三百首、古诗词三百首等
以唐诗三百首页面
需求：
1、一次页面提取所有古诗的链接
2、二次页面提
步骤
一、创建：
1、创建项目： scrapy startproject gushi
2、创建爬虫文件： cd .\Che168
scrapy genspider gushiSpiders
so.gushiwen.cn/gushi/tangshi.aspx
二、设置 items . py ，添加爬取的字段
三、 settings . py ，修改配置
1、禁用 reboots 协议： ROBOTSTXT _ OBEY = False
2、启用管道设置： ITEM _ PIPELINES
四、Che168Spiders. py ，编写爬虫程序，解析
提取所需要的数据
五、 pipelines . py ，编写管道数据函数
02-02古诗文网﹣二级页面
gushi

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-06-13 18:50
关注
引自免费微信小程序：皆我百晓生

为了解决你的问题，我们可以按照你提供的步骤来创建一个Scrapy项目来爬取古诗文网的唐诗三百首。下面是一份详细的指南，包括代码示例。

一、创建项目

首先，在命令行中运行以下命令创建一个新的Scrapy项目：

scrapy startproject gushiwen

这将创建一个名为gushiwen的新目录，其中包含你的Scrapy项目的基本结构。

二、创建爬虫文件

进入项目目录后，创建一个爬虫：

cd gushiwen scrapy genspider tangshi tangshi "https://www.gushiwen.cn/gushi/tangshi.aspx"

这将生成一个名为tangshi.py的爬虫文件在gushiwen/spiders目录下。

三、设置 items.py

在gushiwen/items.py中定义要抓取的字段：

import scrapy class GushiwenItem(scrapy.Item): title = scrapy.Field() author = scrapy.Field() dynasty = scrapy.Field() content = scrapy.Field() tags = scrapy.Field() url = scrapy.Field()

四、settings.py

确保ROBOTSTXT_OBEY被设置为False，并启用你需要的管道（如果有的话）：

# gushiwen/settings.py ROBOTSTXT_OBEY = False # Enable or disable item pipelines ITEM_PIPELINES = { 'gushiwen.pipelines.GushiwenPipeline': 300, }

五、编写爬虫程序

编辑gushiwen/spiders/tangshi.py：

import scrapy from gushiwen.items import GushiwenItem class TangshiSpider(scrapy.Spider): name = 'tangshi' allowed_domains = ['www.gushiwen.cn'] start_urls = ['https://www.gushiwen.cn/gushi/tangshi.aspx'] def parse(self, response): # 提取每个古诗的链接 poem_links = response.css('.sons a::attr(href)').getall() for link in poem_links: yield response.follow(link, self.parse_poem) def parse_poem(self, response): item = GushiwenItem() item['title'] = response.css('.cont h1::text').get() item['author'] = response.css('.cont p.source a::text').getall()[0] item['dynasty'] = response.css('.cont p.source a::text').getall()[1] item['content'] = response.css('.cont .contson::text').getall() item['tags'] = response.css('.tag a::text').getall() item['url'] = response.url yield item

六、编写管道

如果你需要存储数据，可以在gushiwen/pipelines.py中添加一个管道：

# gushiwen/pipelines.py class GushiwenPipeline: def process_item(self, item, spider): # 在这里处理或存储item return item

运行爬虫

最后，回到项目的根目录，并运行爬虫：

scrapy crawl tangshi

以上就是完整的步骤和代码示例，用于爬取古诗文网的唐诗三百首。确保网络连接良好，并且网站的结构没有改变，否则可能需要调整CSS选择器。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

零人工干预！DeepSeek×Python自动化爬虫黑科技手册_deepseek 爬虫
2025-05-09 12:28

程序员一粟的博客爬虫是一种。
Pyton爬虫编程入门学习笔记（八）学习正则表达式
2020-04-17 09:42

流浪的虎哥的博客常用正则表达式用法 3.re.search()函数 4.re.findall()函数 5.re.sub()函数 6.compile()函数二、课堂练习爬取古诗文网推荐页面诗文三、正则表达式实战练习：爬取古诗文网站唐诗三百首一、Python正则表达式正则...
零人工干预！DeepSeek×Python自动化爬虫黑科技手册
2025-03-21 00:43

安全瞭望Sec的博客 ” 当AI说“我会写诗” 你甩出《唐诗三百首》：“‘举头望明月’下一句是‘低头写BUG’？李白棺材板按不住了！” 当AI说“我懂爱情” 你冷笑播放《泰坦尼克号》：“来，先解释下Rose为啥不共享木板？” AI颤抖：“…...
Dean_Mo_2022年网络我的网络爬虫学习心得。
2022-12-17 15:11

Dean_Mo的博客学习爬虫，不只带给我自身一种技能的提升，对前沿数据技术的了解和使用，更带给我的是思想之上的一些蜕变，人们总说要有一双“慧眼”来发现身边处处可见的美丽，而我想要用这样的注视，去在0与1二进制构成的数据里振...
Python生成个人CSDN历史博客文章列表及目录
2023-01-13 16:18

程序媛一枚~的博客 # 使用Python构建CSDN历史博客文章列表，并生成目录
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
2025-07-21 15:56

B站计算机毕业设计大学的博客计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
flask基于SpringBoot的经典诗文学习平台(毕设源码+论文)
2024-11-06 20:28

语琴学姐毕设的博客专门针对整合多种功能，如涵盖用户管理、不同类型诗词资源分类（诗词类型、精选诗集、著名诗人等）、提供名句赏析、古典文籍阅读...支持SQL（结构化查询语言），用于执行数据库操作，如查询、更新、插入和删除数据。
GitHub 项目精选（2022.5.18更新）
2022-05-18 16:01

7ommy的博客 chinese-poetry / chinese-poetry 最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近 5.5 万首唐诗加 26 万宋诗. 两宋时期 1564 位词人，21050 首词。水果证件照 Python 爬虫保存美国农业部网站的水果数据库...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月13日

python爬虫 爬取唐诗三百首的二级页面全部代码

4条回答 默认 最新

一、创建项目

二、创建爬虫文件

三、设置 items.py

四、settings.py

五、编写爬虫程序

六、编写管道

运行爬虫

问题事件

python爬虫爬取唐诗三百首的二级页面全部代码

4条回答默认最新