爬虫爬到的text正常输出，但写入文件时是空的

import requests
from lxml import etree
import json
# for i in range(1, 4):
#     res = requests.get(f'https://www.51shucheng.net/kehuan/santi/santi{i}')
#     res.encoding = 'utf-8'
#     html = etree.HTML(res.text)
#     titles = html.xpath('/html/body/div/div[3]/div[2]/div[6]/ul//li/a/@title')
#     hrefs = html.xpath('/html/body/div/div[3]/div[2]/div[6]/ul//li/a/@href')
#     for href in hrefs:
#         smalltitle = titles[hrefs.index(href)]
#         print(smalltitle, href)
#         response = requests.get(href)
#         response.encoding = 'utf-8'
#         html = etree.HTML(response.text)
#         text = html.xpath('//*[@id="neirong"]//text()')
#         text2 = ''.join(text).replace('(adsbygoogle = window.adsbygoogle || []).push({});','')
#         with open(f'三体/{smalltitle}.txt', 'w',encoding='utf-8')  as file:
#             file.write(text2)

res = requests.get(f'https://www.51shucheng.net/sidamingzhu/hongloumeng')
res.encoding = 'utf-8'
html = etree.HTML(res.text)
titles = html.xpath('/html/body/div/div[3]/div[2]/div[5]/ul//li/a/@title')
hrefs = html.xpath('/html/body/div/div[3]/div[2]/div[5]/ul//li/a/@href')
for href in hrefs:
    smalltitle = titles[hrefs.index(href)]
    print(smalltitle, href)
    response = requests.get(href)
    response.encoding = 'utf-8'
    html = etree.HTML(response.text)
    text = html.xpath('//*[@id="neirong"]//text()')
    text2=''.join(text)
    with open(f'红楼梦/{smalltitle}.txt', 'w',encoding='utf-8') as file:
        file.write(text2)

注释掉的内容爬取的是网站的另一本小说，完全没有问题

下面的是爬取红楼梦

写入文件并没有报错但打开是这个样子

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-05-30 14:33
关注
问题出在with open(f'红楼梦/{smalltitle}.txt', 'w',encoding='utf-8') as file:这行，文件名中含":",不符合系统对文件名的命名规则，导致无法写入文件。改成with open(f'红楼梦/{smalltitle.split(":")[0]}.txt', 'w', encoding='utf-8') as f:即可。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬虫爬到的text正常输出，但写入文件时是空的 python
2021-05-30 12:48

回答 1 已采纳问题出在with open(f'红楼梦/{smalltitle}.txt', 'w',encoding='utf-8') as file:这行，文件名中含":",不符合系统对文件名的命名规则，导致无法
爬虫爬出的数据，print输出可以全部输出，但是写入CSV文件时只能写最后一行 python 爬虫
2022-02-22 08:10

回答 3 已采纳 # -*- coding:utf-8 -*- import requests import csv,re url1 = 'http://category.dangdang.com/' url2
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
python 爬虫网页内容并写入CSV文件
2022-11-27 22:24

niuyongliang110的博客 python 爬虫 CSV
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
爬虫显示成功，但是保存的json文件里都是none，如何解决呢？ html python 爬虫
2022-06-24 16:12

回答 3 已采纳看你自己输出的日志2022-06-24 16:02:42,409 - INFO: get detail data {'cover': None, 'name': None, 'categories':
分享Python7个爬虫小案例（附源码）
2022-10-22 07:00

艾派森的博客本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点，非常适合刚入门python爬虫的小伙伴参考学习。
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
python爬虫爬都到的字符串写入mysql错误 mysql python
2019-04-08 16:26

回答 4 已采纳应该用格式字符串的把，你试试行不行， sql = "insert into ady(score,name,PIC) VALUES ('+%s+','+%s+','+%s+')" %(aa,bb,cc
python爬虫写入txt文件
2021-12-31 00:16

s122432432的博客 content_text): Data='' for i in content_text: #data将lxml.etree._ElementUnicodeResul转化成字符 Data+=str(i) with open('shiji.txt','a',encoding='utf8') as f: f.write(Data) def run(self): response=self....
在写爬虫运用xlwt库将网页信息写入execl中遇到的问题 python 爬虫
2022-04-16 15:54

回答 1 已采纳你抓回来的数据比如name,是这样的[name,],不是字符串就是个列表，你把列表再往表格里写，当然写不进去，你爬下来的比如name之类用join都给变成单个字符串，就能写进去了
用爬虫保存文章到TXT文件丨Python爬虫实战系列(7)
2022-05-19 17:54

互联网阿星的博客本节讲解用Python爬虫保存网页文章到TXT文件，会用到bs4库，可作为bs4案例进行学习研究如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦
Python 爬虫数据写入csv文件中文乱码解决以及天眼查爬虫数据写入csv
2021-09-20 11:13

Griffy650的博客 python爬虫数据写入csv文件中文乱码，用’utf-8‘在pycharm中打开文件没有问题，但是用excel打开却出现了问题，以下为解决方法。（最近在练习爬虫，这个博文是对自己学习的记录和分享，如果有问题，非常感谢各路...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#java#的问题，请各位专家解答！
¥15 急matlab编程仿真二阶震荡系统
¥20 TEC-9的数据通路实验
¥15 ue5 .3之前好好的现在只要是激活关卡就会崩溃
¥50 MATLAB实现圆柱体容器内球形颗粒堆积
¥15 python如何将动态的多个子列表，拼接后进行集合的交集
¥20 vitis-ai量化基于pytorch框架下的yolov5模型
¥15 如何实现H5在QQ平台上的二次分享卡片效果？
¥30 求解达问题（有红包）
¥15 请解包一个pak文件

爬虫爬到的text正常输出，但写入文件时是空的

1条回答 默认 最新

悬赏问题

1条回答默认最新