python selenuim 爬取多页数据

爬虫需要获取多页数据时，网页的url不会刷新时怎么办

# -*- coding:utf-8 -*-
from selenium.webdriver.common.by import By
import re
import lxml.html
import matplotlib.pyplot as plt
from selenium import webdriver
import pandas as pd
import time
from selenium import webdriver

driver = webdriver.Chrome()  # 创建driver对象
driver.get()  # 打开页面
time.sleep(2)
a = driver.find_element(
    By.XPATH, '//a[@class="hy-nav-link hy-nav-link-ext clickstat"]')
a.click()

time.sleep(2)
b = driver.find_element(By.XPATH, '//li[@data-gid="1"]')
b.click()
time.sleep(2)
driver.switch_to.window(driver.window_handles[-1])  # 读取新页面
html = driver.page_source
xp = lxml.html.fromstring(html)  # lxml对象
units = xp.xpath('//li[@class="game-live-item"]')
df = pd.DataFrame()  # 没有text()
for u in units:
    t = {}
    t['标题'] = u.xpath('./a/@title')[0]
    t['主播'] = u.xpath('./span/span/i[@class="nick"]')[0].xpath("string()")
    t['人气'] = u.xpath('./span/span[2]/i[@class="js-num"]/text()')[0]
    df0 = pd.DataFrame([t])
    df = pd.concat([df, df0], ignore_index=True)
    if len(df)>100:
        break

print(df)
df['人气'] = df['人气'].apply(lambda x:float(x[:-1])*10000 if "万" in x else float(x))
df.to_excel(r'D:\a62.xlsx',index=False)
df = pd.read_excel(r'D:\a62.xlsx')
plt.figure(figsize=(12,8),dpi=150)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.bar(x='主播',height='人气',data=df)
plt.xticks(rotation=90,font={'size':6})
plt.yticks(font={'size': 8})
plt.gca().yaxis.get_major_formatter().set_scientific(False)
plt.tight_layout()
plt.show()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-黄老师 2022-06-05 16:07
关注
网页不刷新应该是翻页是通过ajax获取后端数据的，你看看网页是怎样触发ajax请求的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python selenuim 爬取多页数据 python 有问必答爬虫
2022-06-05 15:43

回答 2 已采纳网页不刷新应该是翻页是通过ajax获取后端数据的，你看看网页是怎样触发ajax请求的
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
selenium爬取数据异常 python selenium 爬虫
2022-05-03 21:12

回答 1 已采纳数据在哪就在哪页爬，页面不显示的一般元素没有加载，你自然取不到啊
Python实战：用Selenium爬取网页数据
2023-04-30 17:27

青春不朽512的博客 Selenium是一个自动化测试工具，它可以...与常用的BeautifulSoup、requests等爬虫库不同，Selenium可以处理JavaScript动态加载的内容，因此对于那些需要模拟用户交互才能获取的数据，Selenium是一个非常合适的选择。
【python】selenium爬取含企查查中文的网址报405问题 chrome python selenium
2021-09-23 10:04

回答 2 已采纳先进首页，再跳转
用selenium爬取淘宝多页数据时，只是重复打印一页 python
2021-04-06 22:14

回答 5 已采纳如果没看错的话，您在data函数中做了3次循环，是想爬前三页的数据吗？如果是的话，问题就出在soup上，您的soup是第一页的内容，不管循环多少次，都是在对第一页进行操作
python selenium 多开浏览器能够同步做一样的动作吗 python selenium 爬虫
2022-05-06 09:33

回答 1 已采纳可以做到，使用thread里面的event函设置等待事件，比如说在一个线程（一个游览器）完成点击事件后设置一个等待（event().wait()），只有在全部完成后才能进行下一步，这儿要在主线程里面设
python爬虫学习日志使用selenium爬取动态网页数据
2023-03-30 14:53

栀子枝头盛的博客什么是动态网页？动态网页是指在用户访问时，在服务器端动态生成网页内容的网页。与静态网页不同，静态网页是指在服务器上提前生成...Selenium是一种用于测试Web应用程序的自动化工具，支持多种浏览器和多种编程语言。
使用selenium爬取数据时，数据没展开提取不到怎么办？ python
2021-03-07 15:54

回答 2 已采纳两个方法一个是找到后端接口，直接请求后端接口另一个是操作selenium点击加载
selenium爬虫遇到VIP页面以及爬取次数限制时该怎么办 python selenium 爬虫
2021-10-24 12:56

回答 1 已采纳遇到VIP页面，我想你应该需要一个VIP会员，并以登入破解。限制爬取次数上，可以用proxy轮转或尽量拉长sleep时间或多办几个账号以上浅见
python3+selenium如何获取页面的加载时间或者时间戳 python selenium 测试工具
2022-05-23 09:55

回答 1 已采纳 from datetime import datetime ##获取页面加载时间 a = datetime.now() url='http://192.168.1.199/' x=webdrive
python利用selenium爬取京东数据
2020-02-27 16:13

强风吹拂str的博客京东大药房药品数据，是js渲染，用requests只能抓取静态页面，动态页面无法扑着，可以用selenium自动化模拟登陆页面，这样就做到可见及可爬，废话不多说，开干！放上京东大药房：链接第一步，打开页面F12即...
selenium爬取房源网站 python selenium 有问必答
2022-05-10 21:17

回答 3 已采纳请提供报错信息，从报错行查找原因。
Python实战使用Selenium爬取网页数据
2024-01-02 15:41

小兮说测试的博客网络爬虫是Python编程中一个非常有用的技巧，它可以让您自动获取网页上的数据。在本文中，我们将介绍如何使用Selenium库来爬取网页数据，特别是那些需要模拟用户交互的动态网页。
Python下利用Selenium获取动态页面数据
2023-03-20 14:39

yoyo小小汐~的博客利用python爬取网站数据非常便捷，效率非常高，但是常用的一般都是使用BeautifSoup、requests搭配组合抓取静态页面（即网页上显示的数据都可以在html源码中找到，而不是网站通过js或者ajax异步加载的），这种类型的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月5日

悬赏问题

¥15 对于这个问题的解释说明
¥200 询问：python实现大地主题正反算的程序设计，有偿
¥15 smptlib使用465端口发送邮件失败
¥200 总是报错，能帮助用python实现程序实现高斯正反算吗？有偿
¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。

python selenuim 爬取多页数据

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新