Python爬取小说有些章节爬得到有些爬不到分别爬取都是可以的

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests, sys
import csv

server = 'http://www.biqukan.com/'
target = 'http://www.biqukan.com/1_1094/'
names = []  # 存放章节名
urls = []  # 存放章节链接

def get_download_urls():
    req = requests.get(url=target)
    html = req.text
    bf = BeautifulSoup(html, 'html.parser')
    div = bf.find('div', class_='listmain')
    dl = div.find('dl')
    dd = dl.find_all('dd')

    for each in dd[15:]:
        names.append(each.string)
        urls.append(server + each.find('a').get('href'))

def get_contents(u):
    req = requests.get(url=u)
    html = req.text
    bf = BeautifulSoup(html, 'html.parser')
    texts = bf.find_all('div',{'id': 'content'},class_ = 'showtxt')

    if len(texts)>0:
      final = texts[0].text.replace('\xa0' * 8, '\n\n')
    else:
      final=''
    return final

def writer( name, path,text):
    write_flag = True
    with open(path, 'a', encoding='utf-8') as f:
        fieldnames = ['title']
        writefile = csv.DictWriter(f, fieldnames=fieldnames)
        writefile.writerow({'title': name+'\n'+text})

if __name__ == "__main__":
  url=get_download_urls()
  for i in range(len(names)):
        writer(names[i], '一念永恒.txt',  get_contents(urls[i]))

就是 get_contents(u)

函数里为啥有的texts长度会等于0呢，单独爬这一个页面的时候texts是有内容的呀

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-12-20 07:42
关注
←如果以下回答对你有帮助，请点击右边的向上箭头及采纳下答案

修改下get_contents函数，打印下print(u,req,html),检测是哪里错了，一般会因为有反爬，建议可以加下请求头和延时

def get_contents(u): req = requests.get(url=u) html = req.text bf = BeautifulSoup(html, 'html.parser') texts = bf.find_all('div',{'id': 'content'},class_ = 'showtxt') if len(texts)>0: final = texts[0].text.replace('\xa0' * 8, '\n\n') else: print(u,req,html) final='' return final
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
python爬小说，正文怎么都换不了行，怎么办？ python
2022-04-17 19:49

回答 1 已采纳 1、你的循环没有退出的语句，没有页数，就出错了。 2、正文不换行的问题改一下代码 for x in text: f.write(x) f.write('\r\n') # 改
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
关于#python#的问题：爬虫怎么爬取vue的数据，找不到url连接，懂爬虫给我分析一下 python 爬虫
2023-02-19 14:54

回答 1 已采纳 Vue.js 是一个前端框架，常用于构建单页应用程序（SPA）和动态网页。因此，Vue.js 的数据通常是由前端通过异步请求获取并展示的，而不是像传统的多页应用程序一样，由服务器直接渲染并返回 HTM
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
xpath爬取图片，得不到src ，python求解决 python 有问必答爬虫
2022-01-27 12:25

回答 4 已采纳图片是js解析出来的，xpath无效，数据在js变量里面，正则提取下数据用json.loads加载获取代码如下 import requests import re import json def
Python的pyquery爬取音乐MV时爬不到视频网址 python
2021-07-22 21:58

回答 5 已采纳动态创建的节点。配合selenium.webdriver的无头浏览器来抓。
python爬取小说实例
2022-07-29 15:06

从你的全世界路过026的博客 Python爬虫实例
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫——爬取小说
2023-09-09 10:02

Python程序员小泉的博客先自我介绍一下，小编13年上师交大毕业，曾经在小公司待...**Python这个类目无论是功能性、还是上手程度都碾压其他语言**，作为最适合零基础入门的编程语言，想要学习自然不能纸上谈兵，还得沉下心来深入的研究和学习。
【零基础学爬虫】用python爬取小说
2022-04-28 13:14

荒野火狐的博客大佬学的是c#,我学的是python，于是就开始学习了python爬虫，这是学习中觉得好玩的事，也遇到了不少困难。一、先上效果图这本书一共两千四百多章二、使用步骤 1.引入库代码如下（示例）： import numpy as np...
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

Python爬取小说 有些章节爬得到有些爬不到 分别爬取都是可以的

2条回答 默认 最新

悬赏问题

Python爬取小说有些章节爬得到有些爬不到分别爬取都是可以的

2条回答默认最新