2301_76895655 2024-06-13 09:47 采纳率: 28.6%

已结题

爬取古诗文网的唐诗三百首二级页面＃要完整代码

爬取古诗词网https://www.gushiwen.cn/中各项分类内容，例如唐诗三百首、古诗词三百首等
以唐诗三百首页面为例
需求：
1、一次页面提取所有古诗的链接
2、二次页面提取具体故事的内容
步骤
一、创建：
1、创建项目：scrapy startproject gushi
2、创建爬虫文件：cd .\Che168
scrapy genspider gushiSpiders so.gushiwen.cn/gushi/tangshi.aspx
二、设置items.py，添加爬取的字段
三、settings.py，修改配置
1、禁用reboots协议：ROBOTSTXT_OBEY = False
2、启用管道设置：ITEM_PIPELINES
四、Che168Spiders.py，编写爬虫程序，解析提取所需要的数据
五、pipelines.py，编写管道数据函数

要结构这样的

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-06-13 09:47

关注

引自免费微信小程序：皆我百晓生

为满足上述需求，以下是一种可能的Scrapy爬虫实现方式，包括从古诗文网抓取唐诗三百首页面的所有古诗链接，并进一步抓取每首诗的具体内容。

步骤一：创建项目

scrapy startproject gushiwen

步骤二：创建爬虫

cd gushiwen
scrapy genspider tangshi so.gushiwen.cn/gushi/tangshi.aspx

步骤三：编辑`items.py`

在gushiwen/items.py中定义数据结构：

import scrapy

class GushiwenItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()
    url = scrapy.Field()

步骤四：修改`settings.py`

确保ROBOTSTXT_OBEY被设为False，并启用管道：

ROBOTSTEXT_OBEY = False

# Enable or disable pipelines
ITEM_PIPELINES = {
   'gushiwen.pipelines.GushiwenPipeline': 300,
}

步骤五：编辑`tangshi.py`爬虫文件

import scrapy
from gushiwen.items import GushiwenItem

class TangshiSpider(scrapy.Spider):
    name = "tangshi"
    allowed_domains = ["gushiwen.cn"]
    start_urls = [
        "https://so.gushiwen.cn/gushi/tangshi.aspx",
    ]

    def parse(self, response):
        # 提取每个古诗的链接
        poem_links = response.xpath('//div[@class="sons"]/a/@href').extract()
        for link in poem_links:
            yield scrapy.Request(url=link, callback=self.parse_poem)

    def parse_poem(self, response):
        item = GushiwenItem()
        item['title'] = response.xpath('//h1/text()').get()
        item['author'] = response.xpath('//p[@class="source"]/a[1]/text()').get()
        item['content'] = response.xpath('//div[@class="contson"]/text()').getall()
        item['url'] = response.url
        yield item

步骤六：编辑`pipelines.py`

import json

class GushiwenPipeline:
    def open_spider(self, spider):
        self.file = open('poems.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

运行爬虫

scrapy crawl tangshi

这将抓取唐诗三百首页面上的所有诗歌链接，并对每首诗进行深度抓取，获取标题、作者、内容以及URL，最后将结果保存到poems.json文件中。

编辑记录

报告相同问题？

关注问题

Pyton爬虫编程入门学习笔记（八）学习正则表达式
2020-04-17 09:42

流浪的虎哥的博客常用正则表达式用法 3.re.search()函数 4.re.findall()函数 5.re.sub()函数 6.compile()函数二、课堂练习爬取古诗文网推荐页面诗文三、正则表达式实战练习：爬取古诗文网站唐诗三百首一、Python正则表达式正则...
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
2025-07-21 15:56

B站计算机毕业设计大学的博客计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
flask基于SpringBoot的经典诗文学习平台(毕设源码+论文)
2024-11-06 20:28

语琴学姐毕设的博客专门针对整合多种功能，如涵盖用户管理、不同类型诗词资源分类（诗词类型、精选诗集、著名诗人等）、提供名句赏析、古典文籍阅读以及原创作品交流等多功能于一体的经典诗文学习平台的研究较少。因此本选题将以构建...
计算机毕业设计Python+Vue.js知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
2025-05-20 14:58

B站计算机毕业设计大学的博客计算机毕业设计Python+Vue.js知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
GitHub 项目精选（2022.5.18更新）
2022-05-18 16:01

7ommy的博客写在前面看到这个项目的同好们如果有推荐的 Github 项目或是觉得有用、有趣的网站等都可以发起 issue 或 PR。友情链接： ruanyf / weekly GrowingGit / GitHub-Chinese-Top-Charts ...类似网.
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月13日

爬取古诗文网的唐诗三百首二级页面＃要完整代码

4条回答 默认 最新

步骤一：创建项目

步骤二：创建爬虫

步骤三：编辑items.py

步骤四：修改settings.py

步骤五：编辑tangshi.py爬虫文件

步骤六：编辑pipelines.py