selenium模拟登陆+爬取数据

from selenium import webdriver
from time import sleep
from selenium.webdriver.common.by import By
from lxml import etree
import requests
import time
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}

driver = webdriver.Chrome()
driver.get('https://www.timeshighereducation.com/')
sleep(5)

driver.find_element(By.XPATH,'//div[@class="col-sm-12"]/div[@class="navbar-button__wrapper"]/ul/li/a[@title="User account"]').click()
sleep(5)
driver.find_element(By.XPATH,'//div[@class="region region-secondary-navigation"]/section/div/ul/li/a[@id="modal-login"]').click()
sleep(5)

sleep(5)
driver.switch_to.frame(driver.find_element(By.XPATH,'//div[@id="modal-content"]/iframe'))

driver.find_element(ByXPATH,'//input[@placeholder="Username or email"]').send_keys("123456")
driver.find_element(By.XPATH,'//input[@placeholder="Password"]').send_keys("123456")
# driver.refresh()
driver.find_element(By.XPATH,'//form[@class="user-login-form"]/div/input[@value="Log in"]').click()
sleep(5)
driver.switch_to.parent_frame
sleep(5)

解析html字符串，获取需要的信息

def parse_html(html):
text = etree.HTML(html)

node_list = text.xpath('//tbody/tr[@class="odd row-1 js-row"]')
# print(node_list)
for i in node_list:
    try:
        # rank
        rank = i.xpath('/td[@class="rank sorting_1 sorting_2"]/text()')
        # name
        name = i.xpath('/td[@class=" name namesearch"]/a/text()')
        # region
        region = i.xpath('/td/div/div[@class="location"]/span/a/text()')
        #ratio
        # ratio = i.xpath('')
        # 构建json格式的字符串
        items = {
            "排名": rank,
            "名称": name,
            "地区/国家": region
        }
        print(items)
    except:
        pass

def main():
# 循环获取第0~15的网页源码，并解析
for page in range(0, 16):
# 每个网页的网址
url = 'https://www.timeshighereducation.com/world-university-rankings/2022#!/page/'+ str(page) + '/length/25/sort_by/rank/sort_order/asc/cols/stats'
# 爬取网页源码
html = requests.get(url, headers=headers).text
# 解析网页信息
parse_html(html)

程序运行入口

if name == 'main':
main()

为什么我爬不到数据，有没有能人赐教，本人初次接触

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Katsu-S 2022-06-15 21:27
关注
if name == 'main':
输入用户名的地方少了个点
parse_html中，node_list的xpath应该是[@id="datatable-1"]/tbody，你写的xpath是一行的xpath，所以解析会出错
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

selenium模拟登陆+爬取数据 python selenium 爬虫
2022-06-15 16:41

回答 2 已采纳 if name == 'main':输入用户名的地方少了个点parse_html中，node_list的xpath应该是[@id="datatable-1"]/tbody，你写的xpath是一行的xp
selenium+pyquery爬取房源数据 python selenium 有问必答
2022-05-10 16:02

回答 4 已采纳题主可参考用requests+pyquery获取房源数据的例子：https://blog.csdn.net/weixin_44530636/article/details/95173649
selenium模拟登陆爬取网页无法获取文本 python 有问必答
2022-08-26 16:58

回答 2 已采纳不在可见范围内的a点击不了，可以用js来点击a.find_element(By.TAG_NAME,'a').click()==>web.execute_script("arguments[0].
PhantomJS+selenium模拟登陆与爬取信息
2019-01-27 10:54

memoirs_pz的博客 Python 2.7.15 ...selenium主要是用来做自动化测试，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题，模拟浏览器进行网页加载。当我们要爬取页面有大量的JS渲染的时候，使用PhantomJS+seleniu...
selenium爬取数据异常 python selenium 爬虫
2022-05-03 21:12

回答 1 已采纳数据在哪就在哪页爬，页面不显示的一般元素没有加载，你自然取不到啊
python+selenium+js 模拟点击问题 python selenium 数据挖掘有问必答
2021-04-13 08:54

回答 3 已采纳在browserdriver.execute_script('$arguments[0]).click()',btn) 的[0]后面多了个括号。改成：browserdriver.execute_scr
用R爬取电影数据selenium r语言
2023-04-08 21:05

回答 1 已采纳添加这个库library(stringr)
磕磕碰碰Selenium模拟登陆爬取数据（一）
2018-08-09 16:18

xinshaxin的博客采用Selenium WebDriver，实现模拟登陆功能，模拟网页操作，出现数据后，获取页面数据并判断。失败尝试1 刚开始考虑，已爬虫为解决思路，考察jsoup、htmlunit、WebCollector爬虫，后发现现有案例并不支持。需求...
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
使用selenium爬取数据时，数据没展开提取不到怎么办？ python
2021-03-07 15:54

回答 2 已采纳两个方法一个是找到后端接口，直接请求后端接口另一个是操作selenium点击加载
selenium爬虫爬取网页信息时出现用户登陆怎么解决？ python 有问必答
2022-08-25 16:21

回答 5 已采纳 emmm，你可以先打开浏览器进行登录，再让selenium接管浏览器：https://blog.csdn.net/qq254271304/article/details/103493969或者你再程序
爬虫连载系列(3)–用Selenium+xpath爬取京东商城
2021-01-20 03:09

于是，开始研究各种反反爬的机制，IP代理，多线程、模拟登陆… …发现自己的盲区越来越大。眼瞅着与自己的博客更新计划越行越远，只好先换个目标，对某东下手。但并不代表我会放过它，等自己在修炼一段时间，再来会...
Selenium键盘Ctrl+v操作调试成功但正式运行不成功 python selenium
2023-02-27 13:41

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ这可能是因为在实际运行时，Selenium有时候无法正确地获取当前浏览器窗口的焦点，因此Ctrl + v操作可能不起作用。为了解决这个问题，你可以尝试使用ActionCha
scrapy爬虫selenium模拟无法登陆和爬取的问题
2019-01-16 11:28

国师的玄兵是什么的博客使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案，它通吃各种数据加载方式，能够绕过客户JS加密，绕过爬虫检测，绕过签名机制。它的应用，使得许多网站的反采集策略形同虚设。由于selenium不会在...
2021春项目需求记录 python实现模拟登录+爬取NASA Modis 上的产品数据
2021-07-05 16:37

ORonaldinhoO的博客 python实现模拟登录+爬取Nasa Modis 上的产品数据概述基本思路代码概述 3月的中旬时候参与了学校的一个大创项目，作为本科生，本人只是摸鱼打杂，负责了其中的一个功能模块：爬取NASA Modis数据。整个过程也只是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月15日

悬赏问题

¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line