CZH1479196082 2022-06-18 14:23 采纳率: 0%
浏览 23

文本爬虫,爬取不了文本

小说文本爬取——文件创建成功,但无内容
代码如下:

import requests
from bs4 import BeautifulSoup

def geturl():
url="http://www.wuxia.net.cn/book/baidicheng.html"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0"}
req = requests.get(url = url ,headers = header )
req.encoding = "utf-8"
html = req.text
bes = BeautifulSoup(html,"lxml")
texts = bes.find("div",id="main")
chapters = texts.find_all("a")
print(chapters)
words = []
for chapter in chapters:
if chapter.parent.name == "dd":
name = chapter.string
url1 = "http://www.wuxia.net.cn" + chapter.get("href")
word = [url1,name]
words.append(word)
return words

if name == 'main':
target = geturl()
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0"}
for tar in target:
req = requests.get(url =tar[0],headers = header)
req.encoding = 'utf-8'
html = req.text
bes = BeautifulSoup(html,'lxml')
texts = bes.find("div",id = "container")
texts_list = texts.text.split("\xa0"*4)
print(type(texts_list))
with open("D:/储存库/代码空间/代码运行/"+tar[1] +".txt","w") as file:
for line in texts_list:
print(line+"\n")

应该怎么修改,才能将小说文本爬取到对应的文件中?

  • 写回答

2条回答 默认 最新

  • 「已注销」 2022-06-18 14:47
    关注

    打断点调试

    评论

报告相同问题?

问题事件

  • 创建了问题 6月18日

悬赏问题

  • ¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 matlab有关常微分方程的问题求解决
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?
  • ¥100 求三轴之间相互配合画圆以及直线的算法