python爬虫检索超出范围报错

问题遇到的现象和发生背景

每次获取章节的时候都会到第10个或者11个就报错检索超出列表范围这是之前从博客复制过来的然后根据网站重新分析修改的然后还有一个问题 content函数中遍历cont[0] 和 cont 输出的内容不一样 cont[0]文本类容中没有那些<>之类的东西但是cont会出现很多然后格式也有问题好像遍历cont的时候不会出现报错想问一下是哪个地方出现问题了方便的话可以帮忙看一下多谢

问题相关代码，请勿粘贴截图

import requests
import os
from bs4 import BeautifulSoup
import re
import urllib3
urllib3.disable_warnings()

url = 'https://quanxiaoshuo.com/182901/' # 网站路径
# 伪装请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
res = requests.get(url, headers=headers,verify=False)#发送请求
res.encoding = 'gbk' # 设置编码
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(res.text, 'html.parser')
# BeautifuSoup支持css选择器，借此得到指定标签

# 得到作者
book_info = soup.select('body > div.text.t_c > h1 > a:nth-child(1) ,body > div:nth-child(3) > div.f_l.t_c.w2 > a') 
book_name = book_info[0].text #书名
book_author = book_info[1].text #作者名
#print(book_author)  
# 设置保存路径
root_path = os.path.abspath(os.path.dirname(__file__)) # 得到当前文件路径
save_path = os.path.join(root_path, book_name+'.txt') 

# 取得章节
chapters = soup.select(' a ')  #查找a标签,获得章节信息
#print(count(chapters))
 
list_num=re.findall(r'\d{8}.', str(chapters))
# print(list_num) #章节编号

# 循环打印
# for chapter in chapters:
#     print(chapter.text) # 打印章节名和连接地址
# 定义一个方法得到具体章节的内容
# 定义一个变量判断是爬取此章节
isreq = True
def content(url_last):
    # 当前章节的url等于书籍的url加上章节a标签的href
    global url,headers,isreq
    if isreq:
        # 判断是否到第一章了
        if '21427207' in str(url_last):
            isreq = False
        else:
            return
    url_now = url + url_last
    # print(url_now)
    #爬取具体章节内容
    res_chap = requests.get(url_now, headers=headers,verify=False)
    res_chap.encoding = 'gbk'
    soup = BeautifulSoup(res_chap.text, 'html.parser')
    cont1 = soup.select('.t_c')
    cont = soup.select('#content')
    con = '\n' + str(cont1) + '\n'  ## 使用一个变量来储存单章内容，第一行是文章标题
    print(cont)
#     # 处理文章内容
    for text in cont[0]: # soup的select方法返回的是一个列表，所以cont[0]才是我们想要的具体内容，使用for循环得到每一行
        # 去除换行标签
        if str(text) == '
':
            con += '\n'
        else:
            con += str(text)
    print(con)
    return con
# 定义保存文件的方法
# 首先写入书名和作者
with open(save_path, 'w', encoding='utf-8') as w:
    w.write(book_name+'\n'+book_author)
def save_book(content):
    if content == None:
        return
    with open(save_path, 'a', encoding='utf-8') as f:
        f.write(content)

# # 循环章节列表爬取并保存
for chapter in list_num:
    cont = content(chapter)
    save_book(cont)

运行结果及报错内容

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
亖夕 Python领域新星创作者 2022-09-08 17:22
关注
你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫基础小题目报错 python
2022-04-12 13:59

回答 3 已采纳题主，你代码里链接写错了，是点号你写成了逗号 link="http://www.santostang.com/"
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫，请求不报错也不出现想要获取的信息 python 有问必答爬虫
2021-11-05 23:03

回答 2 已采纳在url_dataList中获取的url有的不是网址的完整形式，只是相对路径，需要进行拼接，类似于base_url+rel_url
最全python爬虫面试笔试题及答案汇总，三万多字，持续更新，适合新手，应届生
2019-07-03 17:22

逸少凌仙的博客一些经典的Python爬虫和网络编程面试题... 1 1、动态加载又对及时性要求很高怎么处理？... 1 2、分布式爬虫主要解决什么问题？... 1 3、什么是 URL？... 1 4、python 爬虫有哪些常用技术？... 1 5、简单说一下...
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
pyThon爬虫多进程报错 python
2022-10-05 08:14

回答 3 已采纳带插件的浏览器，一个配置文件只能打开一个浏览器。想要多进程，需要有多个浏览器配置文件。利用生成器输出配置文件路径，避免多进程用到同一个路径。进程不能太多，不然程序会在某一个进程中卡死不动……没有具体的
python爬虫初学，运行不报错但是没有结果？ python 有问必答
2021-04-01 16:51

回答 4 已采纳代码问题：1.request少写了s。 2. fillUnivList(ulist,html)函数没有return。 3.printUnivList(ulist,num)缺少异常处理。 4
python爬虫篇，零基础学爬虫之精华版
2021-01-04 16:06

Python_sn的博客爬虫简介网络爬虫爬虫指在使用程序模拟浏览器向服务端发出网络请求，以便获取服务端返回的内容。但这些内容可能涉及到一些机密信息，所以爬虫领域目前来讲是属于灰色领域，切勿违法犯罪。很多人学习python，...
Python-爬虫下载图片时报错 python
2017-08-17 03:32

回答 6 已采纳那就是代码的问题，错误提示并不一定是那一行出了问题，排查一下传递的参数或者设置
python 爬虫 post请求报错 python 有问必答
2022-01-24 18:49

回答 3 已采纳不是很明白json(dete)这一步是什么意图，好像直接写dete才好用哦。 import requests import json uil = 'https://www.dcguanwang.c
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
Python 爬虫之爬虫的一些基本知识和基本操作（爬取视频、图片、获取网页源码等）整理
2020-09-06 13:06

仙魁XAN的博客 Python 爬虫之爬虫的一些基本知识和基本操作（爬取视频、图片、获取网页源码等）整理目录 Python 爬虫之爬虫的一些基本知识和基本操作（爬取视频、图片、获取网页源码等）整理一、简单介绍二、文件头的...
python爬虫图片代码疑问，无报错 python 爬虫
2022-01-03 14:51

回答 2 已采纳 response.encoding = 'utf-8'这是定义字符编码为utf-8，这样爬取出来的数据不会是乱码。不要也可以，但有时候你需要把爬取的数据写入表格中，如果没有定义字符编码的数据，写入表格
经典的Python爬虫和网络编程面试题
2019-11-11 21:48

C'ᴇsᴛ.ℳℛ·小华的博客 2、分布式爬虫主要解决什么问题？ (1)ip (2)带宽 (3)cpu (4)io 3、什么是 URL？ URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是...
110道python面试笔试题汇总，你能答对几道？_分别用单进程和多进程计算三次从0累加到2亿,并分别输出所消耗的时间python
2024-04-22 19:55

2401_84121646的博客 Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月8日

悬赏问题

¥15 网络科学导论，网络控制
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）

python爬虫 检索超出范围 报错