Python爬取小说有些章节爬得到有些爬不到分别爬取都是可以的

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests, sys
import csv

server = 'http://www.biqukan.com/'
target = 'http://www.biqukan.com/1_1094/'
names = []  # 存放章节名
urls = []  # 存放章节链接

def get_download_urls():
    req = requests.get(url=target)
    html = req.text
    bf = BeautifulSoup(html, 'html.parser')
    div = bf.find('div', class_='listmain')
    dl = div.find('dl')
    dd = dl.find_all('dd')

    for each in dd[15:]:
        names.append(each.string)
        urls.append(server + each.find('a').get('href'))

def get_contents(u):
    req = requests.get(url=u)
    html = req.text
    bf = BeautifulSoup(html, 'html.parser')
    texts = bf.find_all('div',{'id': 'content'},class_ = 'showtxt')

    if len(texts)>0:
      final = texts[0].text.replace('\xa0' * 8, '\n\n')
    else:
      final=''
    return final

def writer( name, path,text):
    write_flag = True
    with open(path, 'a', encoding='utf-8') as f:
        fieldnames = ['title']
        writefile = csv.DictWriter(f, fieldnames=fieldnames)
        writefile.writerow({'title': name+'\n'+text})

if __name__ == "__main__":
  url=get_download_urls()
  for i in range(len(names)):
        writer(names[i], '一念永恒.txt',  get_contents(urls[i]))

就是 get_contents(u)

函数里为啥有的texts长度会等于0呢，单独爬这一个页面的时候texts是有内容的呀

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-12-20 07:42
关注
←如果以下回答对你有帮助，请点击右边的向上箭头及采纳下答案

修改下get_contents函数，打印下print(u,req,html),检测是哪里错了，一般会因为有反爬，建议可以加下请求头和延时

def get_contents(u): req = requests.get(url=u) html = req.text bf = BeautifulSoup(html, 'html.parser') texts = bf.find_all('div',{'id': 'content'},class_ = 'showtxt') if len(texts)>0: final = texts[0].text.replace('\xa0' * 8, '\n\n') else: print(u,req,html) final='' return final
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用Python爬取高校导师主页信息_python爬虫_
2021-09-29 04:56

本文将深入探讨如何使用Python爬取高校导师的主页信息，帮助学生或研究人员更有效地筛选和选择合适的指导老师。首先，我们需要了解Python爬虫的基本框架。Python中常用的爬虫库有BeautifulSoup、Scrapy和Requests...
python爬虫爬取超清壁纸代码实例
2020-09-18 19:31

在实际应用中，通过编写Python爬虫来爬取超清壁纸，不仅可以达到满足个人使用需求的目的，同时也是一个练习编写爬虫代码和学习网络数据处理的绝佳机会。通过上述知识点的掌握和应用，可以实现更高效、功能更强大的...
【零基础学爬虫】用python爬取小说
2022-04-28 13:14

荒野火狐的博客大佬学的是c#,我学的是python，于是就开始学习了python爬虫，这是学习中觉得好玩的事，也遇到了不少困难。一、先上效果图这本书一共两千四百多章二、使用步骤 1.引入库代码如下（示例）： import numpy as np...
通过Python爬虫实现爬取某小说网站小说并保存到本地
2024-08-19 22:50

Link Line的博客使用python爬取小说全问，并且保存到txt文件中，亲测有效，仅供参考和学习。
python爬虫——爬取小说
2023-09-09 10:02

AI大模型学习教程的博客先自我介绍一下，小编13年上师交大毕业，曾经在小公司待...**Python这个类目无论是功能性、还是上手程度都碾压其他语言**，作为最适合零基础入门的编程语言，想要学习自然不能纸上谈兵，还得沉下心来深入的研究和学习。
Python爬取网站小说
2023-07-21 15:54

等离子带花西瓜蛋糕的博客 like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82' } #创建nol类 class nol: #循环保存方法 def save_content(self): ##list数组，保存爬取到的链接（需要自己替换成要爬取小说的第一个章节页面） ...
python爬取小说实例
2022-07-29 15:06

从你的全世界路过026的博客 Python爬虫实例
用python爬取小说，从一章到全部
2025-06-01 17:23

MAOX789的博客本文介绍了使用Python爬取小说内容方法。通过requests库发送请求，并伪装UA头，结合lxml解析HTML内容，提取章节标题和正文。单章爬取需手动指定URL，保存为TXT文件；全本爬取则通过循环自动获取下一章链接，直至结束...
没有解决我的问题, 去提问

Python爬取小说 有些章节爬得到有些爬不到 分别爬取都是可以的

2条回答 默认 最新

Python爬取小说有些章节爬得到有些爬不到分别爬取都是可以的

2条回答默认最新