为什么爬取的内容保存为txt文本

为什么爬取的内容保存为txt文本，文件里没有内容的？
代码如下：

import requests
from bs4 import BeautifulSoup

url = 'https://www.shicimingju.com/book/luotongsaobei.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69'
}

page = requests.get(url = url,headers = headers)
page.encoding = 'utf-8'
page_text = page.text

print(page_text)

soup = BeautifulSoup(page_text,'lxml')
li_list = soup.select('.book-mulu > ul > li')
fp = open('./luotongsaobei.txt', 'w' ,encoding= 'utf-8')
for li in li_list:
    title = li.a.string
    detail_url += 'http://www.shicimingju.com' + li.a['href']
    detail_page_text = requests.get(url = detail_url, headers = headers).text

    soup = BeautifulSoup(detail_page_text,"html.parser")
    content = soup.find("div", class_="chapter_content").text.strip()
    fp.write(title + '/n' + content + '/n')
    print(title,'爬取成功')
fp.close()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

qq_37749055 2023-09-06 10:33

关注

您的代码存在一些问题，包括选择器不正确、变量名不规范以及代码逻辑错误。我将为您修改代码，以使其能够正常运行。

import requests
from bs4 import BeautifulSoup

url = 'https://www.shicimingju.com/book/luotongsaobei.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69'
}
page = requests.get(url, headers=headers)
page.encoding = 'utf-8'
page_text = page.text

soup = BeautifulSoup(page_text, 'lxml')
li_list = soup.find_all('li', class_='book-mulu')  # 使用find_all来选择所有符合条件的元素

with open('./luotongsaobei.txt', 'w', encoding='utf-8') as fp:
    for li in li_list:
        title = li.find('a').string  # 获取<a>标签的文本内容
        detail_url = 'http://www.shicimingju.com' + li.find('a')['href']  # 获取<a>标签的href属性值并拼接成完整链接
        detail_page = requests.get(detail_url, headers=headers)
        detail_page_text = detail_page.text
        
        detail_soup = BeautifulSoup(detail_page_text, "html.parser")
        content = detail_soup.find("div", class_="chapter_content").text.strip()  # 获取符合条件的div标签的文本内容
        fp.write(title + '\n' + content + '\n')  # 使用\n作为换行符
        print(title, '爬取成功')

请注意，此代码仅用于演示目的，并且可能无法处理所有情况。在实际应用中，您可能需要根据具体情况进行修改和优化。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
为什么我爬取的内容是乱码 python 爬虫
2022-05-31 21:10

回答 2 已采纳这行去掉就行了 res.encoding='utf-8'
用xpath爬取文本时如何去掉非文本内容 python 爬虫
2021-12-18 14:35

回答 1 已采纳 discribe =html.xpath('normalize-space(//div[@class="container-fluid"]//div[@class="work_b"]//text()
python爬取文章保存为txt_爬取博主所有文章并保存到本地（.txt版）--python3.6
2020-12-11 13:42

weixin_39954487的博客闲话：一位前辈告诉我大学期间要好好维护自己的博客，在博客园... 正文：有了上面的思路后，编程就不是问题了，就像师傅说的，任何语言，语法只是很小的一部分，主要还是编程思想。于是边看语法，边写程序，照葫芦画...
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
Python爬取电影数据-进行可视化分析利用request爬取电影数据保存在csv文本，1.zip
2024-06-22 09:30

标题中的“Python爬取电影数据-进行可视化分析利用request爬取电影数据保存在csv文本，1.zip”表明这个压缩包包含了一个使用Python编程语言进行网络爬虫的数据获取过程，目标是抓取电影相关的数据，并进行了可视化...
为什么爬虫无法爬取信息 python 有问必答爬虫
2022-03-25 00:17

回答 2 已采纳你的代码有问题把，你苹果13 也不应该出的来结果啊。good 后面怎么.driver ？ msg 不带text 能看到明文？
Pycharm爬取小说保存到txt with open路径错误 python
2021-12-16 22:44

回答 1 已采纳 # print(book) print(file_name+html_title[i]+'.txt') # 先确认你的文件名是否是你想要的名字 with open(file_name+html_ti
为什么只能爬取4页？ python
2022-11-18 19:38

回答 1 已采纳很有可能是后面的页数需要请求才可以需要带上页数请求你去检查检查还有截图鬼给你看
python爬取文章标题和内容并保存为word_Python爬取博客的所有文章并存为带目录的word文档(实例67)...
2020-12-17 02:01

weixin_39741459的博客整理一下步骤：先获取到所有文章的标题、发表日期、链接通过链接获取文章的内容将文章标题作为“1级”，发表日期和内容作为正文写入word文件保存wrod文件下面就按照以上步骤进行操作。先进入到目标博客的主页，点击...
为什么爬取CSDN热搜存MySQL为空？如何解决 python
2021-08-12 15:48

回答 1 已采纳没有报错？还是爬取的结果为空？或者数据库表存在？字段类型对应？首先看是爬取问题还是数据库存储问题
Python爬取电影数据-进行可视化分析利用request爬取电影数据保存在csv文本，.zip
2024-06-23 16:29

在本项目中，我们将探讨如何使用Python编程语言来爬取电影数据，并对这些数据进行可视化分析。我们将重点关注以下几个核心知识点： 1. **Python网络爬虫基础**：Python提供了多种库来帮助我们抓取网页数据，其中`...
python爬取内容存入Excel实例
2020-09-19 14:29

1. **Python**: 当前最流行的编程语言之一，特别适合于快速开发各种脚本程序。 2. **Requests库**: Python中用于发送HTTP请求的一个简洁且易于使用的库。 3. **BeautifulSoup**: 一个可以从HTML或XML文件中提取数据...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 9月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月6日

悬赏问题

¥15 欧拉系统opt目录空间使用100%
¥15 ul做导航栏格式不对怎么改？
¥20 用户端如何上传图片到服务器和数据库里
¥15 现在研究生在烦开题，看了一些文献，但不知道自己要做什么，求指导。
¥30 vivado封装时总是显示缺少一个dcp文件
¥100 pxe uefi启动 tinycore
¥15 我pycharm运行jupyter时出现Jupyter server process exited with code 1,然后打开cmd显示如下
¥15 可否使用carsim-simulink进行四轮独立转向汽车的联合仿真，实现四轮独立转向汽车原地旋转、斜向形式、横移等动作，如果可以的话在carsim中如何进行相应设置
¥15 Caché 2016 在Java环境通过jdbc 执行sql报Parameter list mismatch错误，但是同样的sql使用连接工具可以查询出数据
¥15 疾病的获得与年龄是否有关

为什么爬取的内容保存为txt文本

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新