python爬虫爬到中间报错

爬虫爬到371页就无法继续了，显示list index out of range


```python
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from lxml import etree
from time import sleep
import pandas as pd
from bs4 import BeautifulSoup


def get_row(li):
    list1 = []
    l1_1 = li.find_all('a', limit=2)
    l1_2 = li.find_all('th')
    for x in l1_1:
        list1.append(x.string)
    for y in l1_2:
        list1.append(y.string)
    return list1


# 实例化一个浏览器对象
bro = webdriver.Chrome(executable_path='./chromedriver')
# 让浏览器发起一个指定url的请求
bro.get('http://vip.stock.finance.sina.com.cn/fund_center/index.html#hbphall')

# 获取浏览器当前界面的动态页面源码数据
page_text = bro.page_source
# 解析企业名称
soup = BeautifulSoup(page_text, "html.parser")

# 建立空列表
list_ji = []

# 开始爬取数据
for i in range(1, 3, 1):
    if i <= 414:
        j = 0
        for j in range(0, 40, 1):
            l1 = soup.find_all('tr', class_='red')
            list_ji.append(get_row(l1[j]))

        # 翻页
        next_button = bro.find_element(By.LINK_TEXT, '下一页')
        actions = ActionChains(bro)
        actions.click(next_button).perform()
        # 获取浏览器当前界面的动态页面源码数据
        page_text = bro.page_source
        # 解析企业名称
        soup = BeautifulSoup(page_text, "html.parser")

    else:
        for k in range(0, 30, 1):
            l1 = soup.find_all('tr', class_='red')
            list_ji.append(get_row(l1[k]))

column = ["基金代码", "基金名称", "单位净值", "累计净值", "近三个月(%)", "近六个月(%)", "近一年(%)",
          "今年以来(%)", "成立以来(%)"]
result = pd.DataFrame(list_ji, columns=column)
pd.set_option('display.max_rows', None)  # 显示pandas所有行
# result.columns = ["基金代码", "基金名称", "单位净值", "累计净值", "近三个月(%)", "近六个月(%)", "近一年(%)", "今年以来(%)", "成立以来(%)"]
print(result)
bro.quit()

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Dick_不周 2023-02-27 16:47
关注
..谢邀。
页数有点多，就不跑完测了。
报错是list index out of range,如果是在371页报的错，跟最后一页条数不够没啥关系。
那首先317页和316页有啥区别？是317页就不够40条了？这也不符合大众的设计思路。
那可能是在翻页的过程中，网页的响应速度变慢，页面没加载出来，l1为空，自然不存在40位的list.
如何解决呢？
相应的解决办法也有很多，例如隐式等待20或30秒

bro.implicitly_wait(30)

更详尽（稳定）的办法是每到新的一页，判断最后一行元素是否存在（1-416为 l1[39] , 最后一页还得看一眼）
如果存在，执行下一步，不存在，等10秒再判断是否存在，还不存在刷新页面（还会停留在当前页数）。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python中爬虫反爬机制报错的排查与修复
2025-05-04 19:20

喜欢编程就关注我的博客 Python爬虫反爬调试需要结合请求伪装行为模拟和数据解析开发阶段使用curl -I命令验证请求头配置通过Fiddler抓包分析动态参数生成逻辑借助PyCharm调试器逐步执行JS逆向代码测试阶段编写单元测试验证代理池可用性使用...
5个常见Python爬虫报错及解决方法.pdf
2025-04-20 15:39

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
Python爬虫：打开数据世界的魔法钥匙
2025-03-02 22:37

大雨淅淅的博客 Python 拥有丰富的库，这简直是爬虫开发者的宝藏库。比如，当我们需要发送 HTTP 请求获取网页内容时，Requests 库就像一位高效的信使，只需简单的几行代码，就能轻松地与服务器进行通信，获取我们想要的网页数据。...
python 爬虫代码
2023-03-09 21:49

qq_繁华的博客 python 爬虫代码
Python爬虫错误合集及解决方案
2023-11-28 11:23

_蓝胖子的博客记录一下大家在使用Python爬虫过程中可能会遇到的错误以及相应解决办法。
全网最全！Python爬虫requests库教程(附案例)
2023-07-08 14:15

程序员小麦的博客当前请求的响应状态码为：400 400 Bad Request openresty 这里发现响应的状态码为 400 ，说明我们请求失败了，因为知乎已经发现了我们是一个爬虫，因此需要对浏览器进行伪装，添加对应的 UA 信息。 import requests ...
【扇贝编程】python爬虫——爬取动态网页笔记
2024-09-03 14:52

s_5421的博客别急，小贝马上教会你</a> <a href="https://wpblog.x0y1.com/?p=34" rel="bookmark">Python 环境搭建指南</a> 因为他，Python 成为当下最红编程语言</a> 对于每个 a 元素，我们需要的是其 href 属性中的链接。...
Python网络爬虫使用教程
2023-06-13 16:50

TTTALK的博客 python爬虫资源抓取--urllib/requests/requests-html、正则表达式、数据解析-Beautiful Soup/lxml/selectolax、自动化爬虫--selenium、爬虫框架--Scrapy/pyspider、模拟登录与验证码识别、autoscraper
Python爬虫(小说爬取)
2025-05-12 17:47

夜思红尘的博客本文介绍了如何使用Python编写爬虫程序来爬取小说网站中的小说内容。首先，需要安装requests和bs4模块，用于发送HTTP请求和解析HTML内容。接着，通过分析目标网页的URL和HTML结构，使用BeautifulSoup库提取小说正文...
Python网络爬虫设计（一）
2025-04-15 19:35

失去妙妙屋的米奇的博客（2）在浏览器中搜索这个网址，查看网页的源代码，在源代码中找出我们想要的...，可能一个有一点反爬虫手段的网页就能把这个代码屏蔽掉（比如我们用上面的代码去爬百度的搜索图片，是不能成功的，会被反爬），而且。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月27日

python爬虫爬到中间报错

3条回答 默认 最新

问题事件

3条回答默认最新