爬取古诗文网风景的全部古诗，注释，作者等 scrapy方法

爬取古诗词网https://www.gushiwen.cn/中各项分类内容，爬取列表里的风景的二级页面
需求：
1、一次页面提取所有古诗的链接

2、二次页面提取具体故事的内容

步骤

一、创建：

1、创建项目：scrapy startproject gushi

2、创建爬虫文件：cd .\Che168

scrapy genspider gushiSpiders so.gushiwen.cn/gushi/tangshi.aspx

二、设置items.py，添加爬取的字段

三、settings.py，修改配置

1、禁用reboots协议：ROBOTSTXT_OBEY = False

2、启用管道设置：ITEM_PIPELINES

四、Spiders.py，编写爬虫程序，解析提取所需要的数据

五、pipelines.py，编写管道数据函数

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-06-18 09:04
关注
上午好☀️☀️☀️️
本答案参考ChatGPT-3.5

这是古诗文提取风景二级页面的Python代码示例：

import requests from bs4 import BeautifulSoup import time # 定义要抓取的网站地址 url = 'https://www.gushiwen.cn/' def get_item(item_name): url = url + item_name response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') return soup.find('div', class_='item') def main(): # 一次页面提取所有古诗的链接 links = [] for i in range(1, 256): link = 'https://www.gushiwen.cn/so/' + str(i) links.append(link) # 二次页面提取具体故事的内容 soup = get_item('详细') story_list = soup.find_all('li', class_='story') for story in story_list: title = story.find('h3').text author = story.find('span', class_='author') content = story.find('div', class_='content').text print(title, author, content) if __name__ == '__main__': main()

这是一个简单的爬虫程序，它首先定义了一个要抓取的网站地址，然后定义了两次爬取的函数。第一次爬取的是每个古诗的链接，第二次爬取的是具体的故事内容。

请注意，这个代码只是一个基本的示例，实际使用时可能需要更复杂的逻辑来处理各种情况，比如错误处理、数据清洗等。同时，爬虫可能会对目标网站造成负担，因此在实际使用时需要遵守目标网站的相关robots.txt规则，并尊重目标网站的版权。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Scrapy入门：爬取古诗文
2020-04-23 21:08

AI路漫漫的博客，，，，，，案例：爬取古诗文网一股文学的味道 - 首先来看一下 settings.py 这个项目配置文件 BOT_NAME：项目名 USER_AGENT：默认是注释的，这个东西非常重要，如果不写很容易被判断为电脑，简单点写一个Mozilla/...
轻松带你掌握Scrapy框架（以爬取古诗文网为例）
2021-01-16 10:14

幸福的小猴子qiqi的博客因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。因此真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。安装Scrapy框架 pip install scrapy。可能会...
爬取某app的古诗文翻译注释等
2020-07-28 20:56

蚂蚁扮大象的博客本来是想爬取某网站的古诗词，但是这个网站的有限制，只能爬取十页的数据，再多就接口500，然后发现该网站有app端，然后通过fiddler抓取接口，爬取了十万左右的古诗词。通过python的正则表达式爬取的，没用框架，...
用Python爬取古诗文网的各类古诗
2024-03-20 10:35

会AIGC的小孩的博客可以拿去用于个人知识库、知识图谱的创建等其他学习用途。
scrapy框架手动请求发送练习之爬取古诗文网论语全篇
2021-04-20 15:29

Mypassword321的博客有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学...
爬虫笔记25：piplines文件的使用、简单案例：scrapy爬取古诗文网站（scrapy中的常用翻页方法）、
2021-06-19 17:56

进阶的阿牛哥的博客在settings.py文件中取消以下注释： ITEM_PIPELINES = { ‘mySpider.pipelines.MyspiderPipeline’: 300, } 2 、回到爬虫文件当中，把数据yield 给管道。为什么是yield的原因：不会浪费内存翻页的逻辑 scrapy...
python Scrapy2古诗爬取
2021-06-02 18:53

brkalsy的博客 python Scrapy2古诗爬取 setting配置页面分析数据分析实现步骤在start文件运行结果：获取内容解决方法：’’.join().strip(),strip是把列表转为字符串，’‘是把不同诗句换成’'连接 ...
scrapy+selenium+超级鹰验证码识别登录古诗文网
2021-05-16 21:31

板栗呀的博客文章目录一、改写超级鹰api接口二、用scrapy+selenium+超级鹰登录古诗文网三、总结一、改写超级鹰api接口代码如下，main中注释的部分为原部分 #!/usr/bin/env python # coding:utf-8 import requests from ...
爬虫笔记25补充：scrapy爬取古诗文网站(爬取原文和译文时，遇到‘展开阅读全文’的处理）
2021-07-04 18:09

进阶的阿牛哥的博客所以，方法就是获取原代码的response后用正则表达式匹配获取完整译文及注释的url后缀，拼接出该目标url。完整代码如下： import re from lxml import etree import scrapy import requests from gsSpider.items ...
爬虫(20)Scrapy知识补充+腾讯招聘案例+古诗文详情页+总结
2021-02-11 12:28

辉子2020的博客上次我们的古诗文案例里，如果我们还需要点击详情页，进入查看诗文详情，那么如果我们要爬取详情页的内容，就需要向详情页发起请求，我们就需要一个详情页的url。下面我们先暂时放下，我们先讲另一个案例。 1. 腾讯...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月18日

爬取古诗文网风景的全部古诗，注释，作者等 scrapy方法

2条回答 默认 最新

问题事件

2条回答默认最新