python爬虫爬到331页无法继续


from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from lxml import etree
from time import sleep
import pandas as pd
from bs4 import BeautifulSoup


def get_row(li):
    list1 = []
    l1_1 = li.find_all('a', limit=2)
    l1_2 = li.find_all('th')
    for x in l1_1:
        list1.append(x.string)
    for y in l1_2:
        list1.append(y.string)
    return list1


# 实例化一个浏览器对象
wd = webdriver.Chrome(executable_path='./chromedriver')
# 让浏览器发起一个指定url的请求
wd.get('http://vip.stock.finance.sina.com.cn/fund_center/index.html#hbphall')
# 设置隐式等待时间
wd.implicitly_wait(20)
# 获取浏览器当前界面的动态页面源码数据
page_text = wd.page_source
# 解析企业名称
soup = BeautifulSoup(page_text, "html.parser")

# 建立空列表
list_ji = []

### 最大页码
max_page = wd.find_element(By.XPATH,'//*[@id="pHBPH"]/a[3]').text

### 检测测数据是否加载完成
def data_exsist():
    # 获取浏览器当前界面的动态页面源码数据
    page_text = wd.page_source
    # 解析企业名称
    soup = BeautifulSoup(page_text, "html.parser")

    if soup.find_all('tr',class_='red') :
        global list_ji
        l1 =soup.find_all('tr',class_ = 'red')
        for j in range(0,40) :
            list_ji.append(get_row(l1[j]))
    else:
        time.sleep(10)
        if soup.fin_all('tr', class_='red'):
            l1 = soup.find_all('tr', class_='red')
            for j in range(0, 40, 1):
                list_ji.append(get_row(l1[j]))
        else:
            wd.refresh()
            time.sleep(5)
            data_exsits()

### 主程序
def get_all_data() :
    global wd,list_ji    ###声明全局变量
    for i in range(1,int(max_page)+1) :
        if i != int(max_page)-1 :
            data_exsist()
            print(f'当前第{i}页')
            wd.find_element(By.LINK_TEXT, '下一页').click()
        else :
            l1 = soup.find_all('tr', class_='red')
            for line in (0,40) :
                try :
                    list_ji.append(get_row(l1[j]))
                except Exception :
                    break
                    ###报错就说明所有数据都拿完了，直接退出即可

get_all_data()
column = ["基金代码", "基金名称", "单位净值", "累计净值", "近三个月(%)", "近六个月(%)", "近一年(%)",
          "今年以来(%)", "成立以来(%)"]
result = pd.DataFrame(list_ji, columns=column)
pd.set_option('display.max_rows', None)  # 显示pandas所有行
# result.columns = ["基金代码", "基金名称", "单位净值", "累计净值", "近三个月(%)", "近六个月(%)", "近一年(%)", "今年以来(%)", "成立以来(%)"]
print(result)
wd.quit()

总是爬取到331页就没法继续了，请求帮助。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
牟柯丞 2023-03-13 13:56
关注
当前页提取列表数据超出索引，这也不是什么报错，当你列表里面没东西或者索引值超过了列表元素的时候就会出现这个问题，
就是你爬到的这页，抓取的这个列表值，里面没东西或者东西太少。所以报错了。
建议你换个网站爬取那个年份的内容或者就忽略掉它，看看这个网站331页的结构，重新编写爬虫程序。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python爬虫课件+代码.zip
2021-07-25 12:18

Python爬虫技术是一种用于自动化网络数据获取的编程技术，它在大数据分析、网站维护、市场研究等领域具有广泛应用。本课程由“路飞学城樵夫”老师指导，通过实际操作帮助学习者掌握Python爬虫的基本原理和实战技巧。...
Python爬虫数据可视化分析大作业.zip
2022-05-29 10:02

Python爬虫数据可视化分析大作业是一项综合性的任务，它涵盖了多个IT领域的知识点，包括但不限于Python编程、网络爬虫技术、数据分析以及数据可视化。下面将详细阐述这些知识点。首先，Python编程是整个作业的基础...
Python爬虫教程——7个爬虫小案例（附源码）_爬虫实例
2024-07-15 13:44

东眠的鱼的博客爬虫的全称为网络爬虫，简称爬虫，别名有网络机器人，网络蜘蛛等等。网络爬虫是一种自动获取网页内容的程序，为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术，将互联网中丰富的网页信息保存到本地，形成...
python实现的爬虫demo
2024-02-20 10:29

以下是Python爬虫的几个主要优势： 1. **简洁易读**: Python的语法非常简洁和易于理解，使得编写爬虫程序变得相对简单。与其他编程语言相比，Python代码通常更加可读，逻辑清晰，这样就可以更轻松地实现和维护爬虫...
一篇最全Python 爬虫超详细讲解（零基础入门,适合小白）
2024-10-23 15:17

Python子木_的博客最后，我精心筹备了一份全面的Python学习大礼包，完全免费分享给每一位渴望成长、希望突破自我现状却略感迷茫的朋友。无论您是编程新手还是希望深化技能的开发者，都欢迎加入我们的学习之旅，共同交流进步！
python爬虫数据可视化分析大作业.zip
2020-06-12 15:39

在本项目中，"python爬虫数据可视化分析大作业.zip" 是一个综合性的学习资源，主要涉及了Python编程中的两个重要领域：网络爬虫（Web Scraping）和数据可视化（Data Visualization）。通过这个作业，我们可以深入...
python编写爬虫小程序
2021-01-03 07:25

深夜忽然想下载一点电子书来扩充一下kindle，就想起来python学得太浅，什么“装饰器”啊、“多线程”啊都没有学到。想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载，结果居然没找到！！CSDN...
python实现爬虫数据存到 MongoDB
2020-12-16 01:58

在以上两篇文章中已经介绍到了 Python 爬虫和 MongoDB ，那么下面我就将爬虫爬下来的数据存到 MongoDB 中去，首先来介绍一下我们将要爬取的网站, readfree 网站，这个网站非常的好，我们只需要每天签到就可以免费...
Python爬虫与Java爬虫深度对比：从原理到实战案例解析
2025-06-05 18:58

cyc&阿灿的博客表：Python与Java爬虫生态对比类别Python优势Java优势HTTP客户端requests更简洁HttpClient更稳定HTML解析BeautifulSoup更...入门简单企业级案例多Python和Java作为爬虫开发的两种主流语言，各有其鲜明的特点和优势。
携程网动态网页python爬虫代码恩施大峡谷
2022-02-20 13:57

【标题】：“携程网动态网页python爬虫代码恩施大峡谷”指的是使用Python编程语言编写的一段爬虫程序，专门用于抓取携程网关于恩施大峡谷的相关动态网页数据。爬虫是一种自动化工具，能够按照预设规则遍历互联网上的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月13日

python爬虫爬到331页无法继续

4条回答 默认 最新

问题事件

4条回答默认最新