python爬取古诗代码

从网站“https://so.gushiwen.cn/gushi/tangshi.aspx”中采集唐诗三百首的内容。具体要求如下：
1.采集数据完整，内容规范（即不包含特殊符号，如换行符、制表符等）。
2.结果数据保存为txt格式的文本文件，每一行包含一首古诗，具体包括信息：诗类型、诗题目、诗内容、诗作者；
3.代码逻辑结构清晰，语法规范。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-18 14:18
关注
引自免费微信小程序：皆我百晓生

为了满足上述需求，可以使用Python中的requests库来获取网页内容，以及BeautifulSoup库来解析HTML并提取所需信息。以下是实现这一目标的完整代码示例：

import requests from bs4 import BeautifulSoup def fetch_tang_poems(): url = "https://so.gushiwen.cn/gushi/tangshi.aspx" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, headers=headers) response.encoding = 'utf-8' # 设置正确的编码方式 soup = BeautifulSoup(response.text, 'html.parser') poems = [] for div in soup.find_all('div', class_='sons'): title = div.find('b').get_text(strip=True) author = div.find('p', class_='source').find('a').get_text() content_tags = div.find_all('div', class_='contson') if content_tags: content = content_tags[0].get_text(strip=True).replace('\n', '').replace('\r', '') # 组织数据 poem_info = f"唐诗|{title}|{content}|{author}" poems.append(poem_info) return poems def save_to_file(poems): with open('tang_poems.txt', 'w', encoding='utf-8') as file: for poem in poems: file.write(poem + '\n') if __name__ == '__main__': poems = fetch_tang_poems() save_to_file(poems)

这段代码首先定义了一个函数fetch_tang_poems()用于从指定URL抓取唐诗信息。它发送一个GET请求到目标网址，并使用BeautifulSoup解析返回的HTML文档。通过查找特定的HTML元素，可以提取出每首诗的标题、作者和内容。提取的信息被整理成字符串格式，其中包含了诗的类型、标题、内容和作者。

接着，save_to_file()函数将这些信息写入到一个名为tang_poems.txt的文本文件中，每一首诗占一行。

注意：

这段代码可能需要根据实际网页结构进行调整，因为网站可能会有更新。
网站可能有反爬虫策略，频繁访问可能会导致IP被封禁。
确保在合法合规的前提下进行网络爬虫操作。

确保在运行此代码前已安装requests和beautifulsoup4库，可以通过pip安装：

pip install requests beautifulsoup4
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 爬取的代码与网页上的代码不同 python 爬虫
2022-03-10 00:27

回答 1 已采纳这种结果用正则表达式提取就行，不能用xpath，另外如果结果数据类型为json的话可以把他转换成字典取值。python里面有json，jsonpath等模块就可以搞这种字符串的。有帮助的话采纳一下哦！
python爬取小说的代码没有执行循环 python 开发语言爬虫
2022-09-07 22:06

回答 1 已采纳这是按照你的改的，因为你没拿到链接。其实你这需求用re会更方便。 import requests from bs4 import BeautifulSoup if __name__ == '__m
python爬取github代码时无法获得作者名和库名 github python 爬虫
2022-11-13 00:01

回答 2 已采纳你这就没获取到信息。肯定得不到需要cookie信息的。否则你得不到信息
python 爬取古诗文存入mysql数据库的方法
2020-09-18 04:07

在介绍如何使用Python爬取古诗文并将数据存储到MySQL数据库中之前，首先需要理解一些基础知识点。Python是一种高级编程语言，具有易于学习和使用的特性，它在数据处理、网络爬虫和自动化脚本等领域有广泛的应用。...
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
python爬取网页题库如何将选项一一对应 python
2022-10-06 15:37

回答 1 已采纳拿去 import requests from bs4 import BeautifulSoup url_list = [] option_one = [] option_two = [] op =
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
爬虫学习笔记：爬取古诗文网
2020-12-21 14:28

- 使用Python编程语言编写爬虫，导入`requests`库用于发送HTTP请求，`re`库用于正则表达式处理。 - `write_data`函数负责将数据写入文件，采用追加模式(`'a'`)打开文件。 - 在循环中，通过`for i in range(1, 10)...
python 爬取数据数据缺失 python
2022-11-25 20:06

回答 2 已采纳它这个做了一点点反扒，你需要把标签里面的5取出来，和你的0.9拼在一起。试试下面这个看行不 Moive_score1 = li.xpath('./i/b/text()') Moive_score2 =
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python3爬取古诗词
2018-04-27 10:10

weixin_33708432的博客 2019独角兽企业重金招聘Python工程师标准>>> ...
scrapy爬取古诗文网.zip
2021-10-13 19:36

Scrapy是一个强大的Python爬虫框架，它为开发者提供了一套高效、灵活的工具，用于爬取网站并提取结构化数据。在这个"scrapy爬取古诗文网.zip"压缩包中，包含了一个名为"ancient-poetry-crawler-master"的项目，我们...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月18日

悬赏问题

¥15 校内二手商品转让网站
¥20 高德地图聚合图层MarkerCluster聚合多个点，但是ClusterData只有其中部分数据，原因应该是有经纬度重合的地方点，现在我想让ClusterData显示所有点的信息，如何实现？
¥100 求Web版SPC控制图程序包调式
¥20 指导如何跑通以下两个Github代码
¥15 大家知道这个后备文件怎么删吗，为啥这些文件我只看到一份，没有后备呀
¥15 C++为什么这个代码没报错运行不出来啊
¥15 一道ban了很多东西的pyjail题
¥15 关于#r语言#的问题：如何将生成的四幅图排在一起，且对变量的赋值进行更改，让组合的图漂亮、美观@（相关搜索：森林图）
¥15 C++识别堆叠物体异常
¥15 微软硬件驱动认证账号申请

python爬取古诗代码

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新