文本爬虫，爬取不了文本

小说文本爬取——文件创建成功，但无内容
代码如下：

import requests
from bs4 import BeautifulSoup

def geturl():
url="http://www.wuxia.net.cn/book/baidicheng.html"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0"}
req = requests.get(url = url ,headers = header )
req.encoding = "utf-8"
html = req.text
bes = BeautifulSoup(html,"lxml")
texts = bes.find("div",id="main")
chapters = texts.find_all("a")
print(chapters)
words = []
for chapter in chapters:
if chapter.parent.name == "dd":
name = chapter.string
url1 = "http://www.wuxia.net.cn" + chapter.get("href")
word = [url1,name]
words.append(word)
return words

if name == 'main':
target = geturl()
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0"}
for tar in target:
req = requests.get(url =tar[0],headers = header)
req.encoding = 'utf-8'
html = req.text
bes = BeautifulSoup(html,'lxml')
texts = bes.find("div",id = "container")
texts_list = texts.text.split("\xa0"*4)
print(type(texts_list))
with open("D:/储存库/代码空间/代码运行/"+tar[1] +".txt","w") as file:
for line in texts_list:
print(line+"\n")

应该怎么修改，才能将小说文本爬取到对应的文件中？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2022-06-18 14:47
关注
打断点调试

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
如何将爬虫爬取的数据进行排版 python 数据挖掘爬虫
2022-02-28 22:22

回答 1 已采纳看你想怎么处理了，可以放到一行，可以放到word里，可以用Excel，你选一个，我教你另外你的代码需要看一下，要不不好改
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
python多线程爬虫爬取电影天堂资源
2024-03-15 12:43

Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影资源信息,包括电影名称、年份、类型...
爬虫爬取的html是不完整的 python
2021-03-10 20:09

回答 7 已采纳对于有些异步加载的网页, 可以用selenium库模拟浏览器爬取数据这段代码可参考: # 导入工具包 import pandas as pd import numpy as np import
关于爬虫爬取动态网站的问题 python 有问必答爬虫
2022-04-17 18:40

回答 2 已采纳你这个网页中的内容通过 js代码读取外部json数据来动态更新的。可以通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。或者参考selenium滚动到页面底部的几种解决方案
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
手把手教会爬虫爬取json数据
2022-05-14 18:10

官麒的博客本章节给大家实现爬虫爬取json 的项目实例
爬虫爬取图片失败，文件打不开怎么办 python 爬虫
2022-08-23 15:30

回答 1 已采纳因为最后写入图片的不是图片响应，而是获取的图片url地址，拿到所有地址后，遍历再请求一下再写入就好了：
python爬虫爬取的内容与数据包中的内容不一致该怎么解决？ python 数据挖掘爬虫
2022-02-27 22:16

回答 3 已采纳你提取的就是汉字呀，那些/u开头的就是汉字的unicode编码https://blog.csdn.net/weixin_39778447/article/details/109942478 这里面有写
爬虫爬取数量改变不了，如何解决？ json python 有问必答爬虫
2022-01-23 21:35

回答 2 已采纳 for dict in json_ids['list']: 要缩进增加一层放到 for page in range(1,6):循环里面你题目的解答代码如下： import requests i
Python爬虫手把手教你利用爬虫爬取网页
2020-10-21 18:47

夕夕老师的博客本文主要分为两个部分：一部分是网络爬虫的概述，帮助大家详细了解网络爬虫；另一部分是HTTP请求的Python实现，帮助大家了解Python中实现HTTP请求的各种方式，以便具备编写HTTP网络程序的能力。 01 网络爬虫概述...
关于爬虫爬取页数的问题 json python 爬虫
2022-09-14 23:27

回答 2 已采纳 import requests import re import json import time fh = open('测试写入.txt', 'a') for i in range(1, 20,
python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片（一）
2021-01-14 22:32

weixin_34537864的博客另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。(来源：百度百科)爬虫协议Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议...
python编程练习：爬虫爬取全国大江大河实时水情
2021-08-23 17:19

Salierib的博客文章目录一、功能介绍二、网页分析三、代码四、运行结果五、其他一、功能介绍基于python爬虫下载全国水雨情信息http://xxfb.mwr.cn/sq_djdh.html 二、网页分析三、代码 import requests import pandas as pd...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月18日

悬赏问题

¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 matlab有关常微分方程的问题求解决
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法

文本爬虫，爬取不了文本

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新