python爬取数据时发现没有按照顺序而且没法翻页

以下是代码


 
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from lxml import etree
from time import sleep
import pandas as pd
from bs4 import BeautifulSoup
 
 
def get_row(li):
    list1 = []
    l1_1 = li.find_all('a')
    l1_2 = li.find_all('td')
    for x in l1_1:
        list1.append(x.string)
    for y in l1_2[2:5]:
        list1.append(y.string)
    return list1
 
 
# 实例化一个浏览器对象
wd = webdriver.Chrome(executable_path='./chromedriver')
# 让浏览器发起一个指定url的请求
wd.get('http://www.fortunechina.com/fortune500/c/2022-08/03/content_415683.htm')
# 设置隐式等待时间
wd.implicitly_wait(20)
# 获取浏览器当前界面的动态页面源码数据
page_text = wd.page_source
# 解析企业名称
soup = BeautifulSoup(page_text, "html.parser")
 
# 建立空列表
list_ji = []
 
max_page = 2
 
### 检测测数据是否加载完成
def data_exsist():
    if soup.find_all('tr',role="row") :
        global list_ji
        l1 =soup.find_all('tr',role="row")
        for j in range(0,50) :
            list_ji.append(get_row(l1[j]))
    else:
        sleep(10)
        if soup.find_all('tr', role="row"):
            l1 = soup.find_all('tr', role="row")
            for j in range(0, 50, 1):
                list_ji.append(get_row(l1[j]))
        else:
            wd.refresh()
            sleep(5)
            data_exsist()
 
### 主程序
def get_all_data() :
    global wd,list_ji    ###声明全局变量
    for i in range(1,int(max_page)+1) :
        if i != int(max_page)-1 :
            data_exsist()
            print(f'当前第{i}页')
            wd.find_element(By.LINK_TEXT, '下页').click()
        else :
            l1 = soup.find_all('tr', role="row")
            for line in (0,50) :
                try :
                    list_ji.append(get_row(l1[line]))
                except Exception :
                    break
                    ###报错就说明所有数据都拿完了，直接退出即可
 
get_all_data()
column = ["企业名称", "营业收入", "利润", "国家"]
result = pd.DataFrame(list_ji, columns=column)
pd.set_option('display.max_rows', None)  # 显示pandas所有行
print(result)
wd.quit()

出现了这样的问题

最后让排名第五十的放在了前面，而且发现有一些空数据，还不能翻页。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-03-10 22:52
关注
你可以看下这个问题的回答https://ask.csdn.net/questions/7735276
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
python 爬取数据数据缺失 python
2022-11-25 20:06

回答 2 已采纳它这个做了一点点反扒，你需要把标签里面的5取出来，和你的0.9拼在一起。试试下面这个看行不 Moive_score1 = li.xpath('./i/b/text()') Moive_score2 =
Python 学习 02 —— Python如何爬取数据
2021-07-08 23:24

老板来碗小面加蛋~的博客文章目录系列文章二、Python爬虫1、任务介绍2、爬虫简介3、基本流程3.1、准备工作3.1.1、分析页面3.1.2、编码规范3.1.3、导入模块3.1.4、程序流程3.2、获取数据3.3、解析数据3.4、保存数据3.4.1、Excel表存储3.4.1、...
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
怎么样用Python爬取数据 python
2022-10-12 10:57

回答 2 已采纳爬取代码如下，如有帮助请点击一下采纳谢谢： import requests headers = { "authority": "pythonscraping.com", "acc
用python爬取网站数据代码,python网络爬虫爬取数据
2023-09-01 13:10

chatgpt001的博客爬虫的学习按照任务驱动的方式进行，最终实现douban电影Top250的基本信息抓取，包括电影的名称...由于互联网数据的多样性和资源的有限性，如今根据用户需求定向抓取相关网页并分析已经成为了主流的爬取策略。能做什么。
python爬取数据存入excel中的问题 python 数据分析爬虫
2021-08-18 15:01

回答 2 已采纳不清楚你爬取的网页结构是什么？看你代码及执行结果猜测：第一页中只有一个《ul》,你取了它之下所有的《a》和《span》的内容，然后用“，”将它们连接成一个字符串，结果就是一个《ul》下的内容存为
Python爬取豆瓣电影数据返回[]，没有数据 json python
2022-01-02 16:04

回答 3 已采纳找到问题了 interval_id 后面100:90冒号后多了一个空格
python爬取小说的代码没有执行循环 python 开发语言爬虫
2022-09-07 22:06

回答 1 已采纳这是按照你的改的，因为你没拿到链接。其实你这需求用re会更方便。 import requests from bs4 import BeautifulSoup if __name__ == '__m
【python实现网络爬虫（10）】Selenium框架以任意关键词爬取淘宝商品数据
2020-02-18 11:41

lys_828的博客以任意关键词爬取商品数据比如这里以输入中文为例：小米手机（需要扫码登录）爬虫逻辑：【登陆】-【访问页面 + 采集商品信息 - 翻页】 1）函数式编程函数1：get_to_page(keyword) → 【登陆】 &...
python爬取码市导入excel中导入结果只导入最后一条的问题 python 数据分析爬虫
2021-08-15 19:24

回答 3 已采纳修改了一下程序，有帮助的话，望采纳！ #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author: Roc-xb """ import requ
当当网Python图书数据分析
2021-12-23 10:06

JackGivenchy的博客 scrapy框架爬取当当图书信息；图书价格分布、出版社分布、评论数量前10的图书、评论词云图展示
Selenium爬虫 -- 使用Selenium爬取数据时，网页切换之后原先获取的元素变量失效的问题
2020-08-29 23:43

啦啦啦___123的博客如题，在使用Selenium爬取***的数据时，有的帖子是有图片的，而主页是没法直接获取图片的，只能点击进入详情页面，并且还得进其他网站才能获取图片的绝对地址来下载。而采集完之后，使用back方法回到主页后，也...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月10日

悬赏问题

¥15 phython如何实现以下功能？查找同一用户名的消费金额合并—
¥15 孟德尔随机化怎样画共定位分析图
¥18 模拟电路问题解答有偿速度
¥15 CST仿真别人的模型结果仿真结果S参数完全不对
¥15 误删注册表文件致win10无法开启
¥15 请问在阿里云服务器中怎么利用数据库制作网站
¥60 ESP32怎么烧录自启动程序，怎么查看客户esp32板子上程序及烧录地址
¥50 html2canvas超出滚动条不显示
¥15 java业务性能问题求解(sql，业务设计相关)
¥15 52810 尾椎c三个a 写蓝牙地址

python爬取数据时发现没有按照顺序而且没法翻页

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新