ywzq23 2022-08-12 12:20 采纳率: 100%

已结题

python爬虫爬取到的内容无法输出到txt文档中

我最近想要学习python，想从爬虫开始，应为本人还在上学，只学过java与c#桌面编程，所以有一定基础，但学的不深。在今天我所编写的爬虫中，我的爬虫爬取到了我所想要的网页内容，结果在输出成txt文档时，老是输出成空的文档，我在csnd里搜索“python输出txt文档”找了几个输出txt文档的代码，结果在代码运行完后，控制台输出了我想要的结果，但我的txt文档是空的，不知道是哪里错了。

以下是我编写的代码

from urllib import request

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 '
                  'Safari/537.36 '  # 要爬取网站的 user-agent
}

req = request.Request(url=url, headers=headers)
rsp = request.urlopen(req)
print(rsp.read().decode('utf-8'))  # 以utf-8编码输出到控制台

file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(rsp.read().decode('utf-8'))  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

代码截图：

控制台是没问题的

但txt文档是空的

我在代码里经过多次尝试却始终无法发现所在的问题，以下是我所做的尝试：

import fileinput
from urllib import request

url = 'https://fanqienovel com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {
    'user-agent': 'Mozilla/5 0 (Windows NT 10 0; Win64; x64) AppleWebKit/537 36 (KHTML, like Gecko) Chrome/104 0 0 0 '
                  'Safari/537 36 '  # 要爬取网站的 user-agent
}
req = request Request(url=url, headers=headers)
rsp = request urlopen(req)
print(rsp read() decode('utf-8'))  # 以utf-8编码输出到控制台

path2 = r'G:\txt txt'
file2 = open(path2, 'w+')
file2 write(rsp read() decode('utf-8'))
fileinput close()

import fileinput
from urllib import request

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 '
                  'Safari/537.36 '  # 要爬取网站的 user-agent
}

req = request.Request(url=url, headers=headers)
rsp = request.urlopen(req)
print(rsp.read().decode('utf-8'))  # 以utf-8编码输出到控制台

with open("G:/txt.txt", "w") as f:
    f.write(rsp.read().decode('utf-8'))

这两个代码都是输出txt文档时，文档输出是空的，我觉得应该是“rsp read() decode('utf-8')”这串代码需要转换成其他代码，但是我不知道怎么转换，也不知道怎么搜索。

我想要的结果很简单，就是将控制台输出的内容输出成txt文档。
（如下图）（下图是复制粘贴，不是输出）

请问我的代码出了什么问题和怎么样解决？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

starlight_2007 2022-08-13 14:32

关注

不如换用requests库和bs4库吧。

from bs4 import BeautifulSoup as bs
import requests as r

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 ''Safari/537.36 '}# 要爬取网站的 user-agent
 
html_doc=r.get(url=url,headers=headers).content
soup=bs(html_doc,'lxml')
print(soup)  #以utf-8编码输出到控制台
 
file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(soup.text)  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

很好用，帮您调试过了。不过输入到txt文本文档里的是文字信息，不是网页源码。

当然，如果您想要的仅仅是网页源码，也可以这样写：

from bs4 import BeautifulSoup as bs
import requests as r

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 ''Safari/537.36 '}# 要爬取网站的 user-agent
 
html_doc=r.get(url=url,headers=headers).content
soup=bs(html_doc,'lxml')
print(soup)  #以utf-8编码输出到控制台
 
file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(str(soup))  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

这样，输出到文件里的，就是经过bs4处理过的网页源码。
见下图：

PS:也可以把第二个代码块倒数第二行的'str(soup)'改成'str(html_doc)'，然后删去所有和bs4沾上关系的代码，如下代码：

import requests as r

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 ''Safari/537.36 '}# 要爬取网站的 user-agent

html_doc=r.get(url=url,headers=headers).content
print(html_doc)  #以utf-8编码输出到控制台
 
file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(str(html_doc))  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

运行效果：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫爬取github项目里的评论.zip
2024-01-17 20:55

Python爬虫爬取GitHub项目评论是一项常见的数据抓取任务，主要涉及到网络爬虫技术、Python编程语言以及GitHub的API接口使用。在这个项目中，我们可能会遇到以下几个关键知识点： 1. **Python基础知识**：Python是该...
Python爬虫源码—爬取猫途鹰官方旅游网站信息
2021-05-03 18:41

在IT行业中，Python爬虫是一种常见的数据获取技术，尤其在大数据分析、市场研究以及网络信息监控等领域中广泛应用。本项目是关于使用Python爬虫来抓取猫途鹰（TripAdvisor）官方网站上的旅游信息，包括酒店和景点的...
Python爬虫将爬取的图片写入world文档的方法
2020-09-19 23:36

当爬取的不仅是文本信息，还包括图片时，有时我们需要将这些图片整合到Word文档中，以便于阅读和保存。本篇文章将详细讲解如何使用Python爬虫将抓取的图片写入Word文档。首先，我们需要了解Python中的requests库，...
Python爬虫实战：高效爬取Word与Excel文档内容的完整指南
2025-08-09 09:45

Python爬虫项目的博客本文将深入探讨如何使用Python爬虫技术从Word(.docx)和Excel(.xlsx)文档中提取内容。我们将介绍最新的Python库和技术，包括python-docx、openpyxl、pandas等，并提供完整的代码示例。文章还将涵盖异常处理、性能优化...
课程设计，爬取博客内容到数据库、excel、txt文本文档。_Blog_Python.zip
2024-09-10 10:35

本课程设计旨在教授学生如何使用Python语言，结合相关库和工具，从互联网上爬取博客内容，并将这些内容存储到数据库、Excel以及txt文本文件中。这一过程不仅涵盖了数据抓取、数据处理和数据存储等关键技术点，同时也...
Python爬虫练习笔记——爬取一本小说并保存为txt文件
2020-04-17 12:46

高大宝呀的博客最近竟然开始磕起了黄晓明和尹正的CP！！！但是万恶的爱某艺不好好更新剧集，居然搞...首先需要了解要爬取网站的页面，查看网页源代码。然后根据网页源代码的结构，想好代码的步骤和思路。在网页开发者模式中查看...
python语言taobao爬虫程序代码QZQ.txt
2025-01-01 11:13

根据提供的文件内容，我们可以分析出以下知识点： ...最后，使用openpyxl库将这些信息保存到Excel文档中。在进行这类数据抓取工作时，开发者需要注意数据的合法性问题，确保爬虫活动遵守相关法律法规和平台规定。
Python爬取题库保存Word[项目源码]
2025-11-13 07:19

在本案例中，作者使用python-docx库将题目和答案分别存储到了不同的Word文档中，有效地实现了数据的分类存储。在脚本的具体实现中，包括了对网页内容的字符串解析、试题的下载处理以及Word文档的生成等关键步骤。...
学会用Python爬取小说网站，想看什么就爬什么，广告也不用看了~
2023-12-15 10:33

白帽黑客艾登的博客当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。之后，我们还可以用 jieba 库...
Python使用xpath爬取网站数据
2025-04-03 17:28

在HTML文档中，每个元素都可以看作是一个节点，我们可以通过XPath表达式快速定位到具有特定特征的节点。为了实现网站数据的爬取，我们需要使用Python的第三方库，如lxml。lxml是一个高性能的XML和HTML解析库，它...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月12日

python爬虫爬取到的内容无法输出到txt文档中

3条回答 默认 最新

问题事件

3条回答默认最新