ywzq23 2022-08-12 12:20 采纳率: 100%

已结题

python爬虫爬取到的内容无法输出到txt文档中

我最近想要学习python，想从爬虫开始，应为本人还在上学，只学过java与c#桌面编程，所以有一定基础，但学的不深。在今天我所编写的爬虫中，我的爬虫爬取到了我所想要的网页内容，结果在输出成txt文档时，老是输出成空的文档，我在csnd里搜索“python输出txt文档”找了几个输出txt文档的代码，结果在代码运行完后，控制台输出了我想要的结果，但我的txt文档是空的，不知道是哪里错了。

以下是我编写的代码

from urllib import request

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 '
                  'Safari/537.36 '  # 要爬取网站的 user-agent
}

req = request.Request(url=url, headers=headers)
rsp = request.urlopen(req)
print(rsp.read().decode('utf-8'))  # 以utf-8编码输出到控制台

file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(rsp.read().decode('utf-8'))  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

代码截图：

控制台是没问题的

但txt文档是空的

我在代码里经过多次尝试却始终无法发现所在的问题，以下是我所做的尝试：

import fileinput
from urllib import request

url = 'https://fanqienovel com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {
    'user-agent': 'Mozilla/5 0 (Windows NT 10 0; Win64; x64) AppleWebKit/537 36 (KHTML, like Gecko) Chrome/104 0 0 0 '
                  'Safari/537 36 '  # 要爬取网站的 user-agent
}
req = request Request(url=url, headers=headers)
rsp = request urlopen(req)
print(rsp read() decode('utf-8'))  # 以utf-8编码输出到控制台

path2 = r'G:\txt txt'
file2 = open(path2, 'w+')
file2 write(rsp read() decode('utf-8'))
fileinput close()

import fileinput
from urllib import request

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 '
                  'Safari/537.36 '  # 要爬取网站的 user-agent
}

req = request.Request(url=url, headers=headers)
rsp = request.urlopen(req)
print(rsp.read().decode('utf-8'))  # 以utf-8编码输出到控制台

with open("G:/txt.txt", "w") as f:
    f.write(rsp.read().decode('utf-8'))

这两个代码都是输出txt文档时，文档输出是空的，我觉得应该是“rsp read() decode('utf-8')”这串代码需要转换成其他代码，但是我不知道怎么转换，也不知道怎么搜索。

我想要的结果很简单，就是将控制台输出的内容输出成txt文档。
（如下图）（下图是复制粘贴，不是输出）

请问我的代码出了什么问题和怎么样解决？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

starlight_2007 2022-08-13 14:32

关注

不如换用requests库和bs4库吧。

from bs4 import BeautifulSoup as bs
import requests as r

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 ''Safari/537.36 '}# 要爬取网站的 user-agent
 
html_doc=r.get(url=url,headers=headers).content
soup=bs(html_doc,'lxml')
print(soup)  #以utf-8编码输出到控制台
 
file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(soup.text)  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

很好用，帮您调试过了。不过输入到txt文本文档里的是文字信息，不是网页源码。

当然，如果您想要的仅仅是网页源码，也可以这样写：

from bs4 import BeautifulSoup as bs
import requests as r

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 ''Safari/537.36 '}# 要爬取网站的 user-agent
 
html_doc=r.get(url=url,headers=headers).content
soup=bs(html_doc,'lxml')
print(soup)  #以utf-8编码输出到控制台
 
file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(str(soup))  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

这样，输出到文件里的，就是经过bs4处理过的网页源码。
见下图：

PS:也可以把第二个代码块倒数第二行的'str(soup)'改成'str(html_doc)'，然后删去所有和bs4沾上关系的代码，如下代码：

import requests as r

url = 'https://fanqienovel.com/reader/6924594094115127816'  # 要爬取内容的网址
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 ''Safari/537.36 '}# 要爬取网站的 user-agent

html_doc=r.get(url=url,headers=headers).content
print(html_doc)  #以utf-8编码输出到控制台
 
file_handle = open('G:/txt.txt', mode='a')  # 打开要读取的txt文档
file_handle.write(str(html_doc))  # 将爬取的内容写入txt.txt文件
file_handle.close()  # 关闭txt.txt文档

运行效果：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
Python爬虫练习笔记——爬取一本小说并保存为txt文件
2020-04-17 12:46

高大宝呀的博客最近竟然开始磕起了黄晓明和尹正的CP！！！但是万恶的爱某艺不好好更新剧集，居然搞...首先需要了解要爬取网站的页面，查看网页源代码。然后根据网页源代码的结构，想好代码的步骤和思路。在网页开发者模式中查看...
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python爬虫爬取的内容与数据包中的内容不一致该怎么解决？ python 数据挖掘爬虫
2022-02-27 22:16

回答 3 已采纳你提取的就是汉字呀，那些/u开头的就是汉字的unicode编码https://blog.csdn.net/weixin_39778447/article/details/109942478 这里面有写
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
使用python爬虫把自己的CSDN文章爬取下来并保存到MD文件
2021-04-28 11:10

坐公交也用券的博客爬虫作为一个敏感技术，千万要把握好，如果人家不让爬那就不要头铁去试了如何确定某个网站是否允许爬虫在域名后面加上/robots.txt查看即可，例如： https://blog.csdn.net/robots.txt 不能爬取的网站目录： /...
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。 python 有问必答
2021-09-20 23:00

回答 2 已采纳没有指定打开方式写为with open("./Gldjc_Pandas.txt","w+") as fin:即可有帮助望采纳~
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
学会用Python爬取小说网站，想看什么就爬什么，广告也不用看了~
2023-12-15 10:33

程序员晓晓的博客当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。之后，我们还可以用 jieba 库...
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python爬虫——世界排名前1000大学
2022-03-13 09:33

YYHhao.的博客 pyhton爬虫，数据处理，网页解析，requests库,数据匹配等等
Python爬取京东商品信息
2020-10-30 20:56

别叫我名字20的博客 *使用Python爬取京东华为手机前十页的所有商品的链接、名称、价格、评价数以及店铺名称。 1.前期准备（1）下载驱动我使用的是谷歌浏览器，所以要下载谷歌驱动，用来告诉电脑在哪打开浏览器驱动文件下载地址：...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月12日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

python爬虫爬取到的内容无法输出到txt文档中

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新