selenium模拟登陆+爬取数据

from selenium import webdriver
from time import sleep
from selenium.webdriver.common.by import By
from lxml import etree
import requests
import time
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}

driver = webdriver.Chrome()
driver.get('https://www.timeshighereducation.com/')
sleep(5)

driver.find_element(By.XPATH,'//div[@class="col-sm-12"]/div[@class="navbar-button__wrapper"]/ul/li/a[@title="User account"]').click()
sleep(5)
driver.find_element(By.XPATH,'//div[@class="region region-secondary-navigation"]/section/div/ul/li/a[@id="modal-login"]').click()
sleep(5)

sleep(5)
driver.switch_to.frame(driver.find_element(By.XPATH,'//div[@id="modal-content"]/iframe'))

driver.find_element(ByXPATH,'//input[@placeholder="Username or email"]').send_keys("123456")
driver.find_element(By.XPATH,'//input[@placeholder="Password"]').send_keys("123456")
# driver.refresh()
driver.find_element(By.XPATH,'//form[@class="user-login-form"]/div/input[@value="Log in"]').click()
sleep(5)
driver.switch_to.parent_frame
sleep(5)

解析html字符串，获取需要的信息

def parse_html(html):
text = etree.HTML(html)

node_list = text.xpath('//tbody/tr[@class="odd row-1 js-row"]')
# print(node_list)
for i in node_list:
    try:
        # rank
        rank = i.xpath('/td[@class="rank sorting_1 sorting_2"]/text()')
        # name
        name = i.xpath('/td[@class=" name namesearch"]/a/text()')
        # region
        region = i.xpath('/td/div/div[@class="location"]/span/a/text()')
        #ratio
        # ratio = i.xpath('')
        # 构建json格式的字符串
        items = {
            "排名": rank,
            "名称": name,
            "地区/国家": region
        }
        print(items)
    except:
        pass

def main():
# 循环获取第0~15的网页源码，并解析
for page in range(0, 16):
# 每个网页的网址
url = 'https://www.timeshighereducation.com/world-university-rankings/2022#!/page/'+ str(page) + '/length/25/sort_by/rank/sort_order/asc/cols/stats'
# 爬取网页源码
html = requests.get(url, headers=headers).text
# 解析网页信息
parse_html(html)

程序运行入口

if name == 'main':
main()

为什么我爬不到数据，有没有能人赐教，本人初次接触

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Katsu-S 2022-06-15 21:27
关注
if name == 'main':
输入用户名的地方少了个点
parse_html中，node_list的xpath应该是[@id="datatable-1"]/tbody，你写的xpath是一行的xpath，所以解析会出错
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

PhantomJS+selenium模拟登陆与爬取信息
2019-01-27 10:54

memoirs_pz的博客 Python 2.7.15 ...selenium主要是用来做自动化测试，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题，模拟浏览器进行网页加载。当我们要爬取页面有大量的JS渲染的时候，使用PhantomJS+seleniu...
磕磕碰碰Selenium模拟登陆爬取数据（一）
2018-08-09 16:18

xinshaxin的博客采用Selenium WebDriver，实现模拟登陆功能，模拟网页操作，出现数据后，获取页面数据并判断。失败尝试1 刚开始考虑，已爬虫为解决思路，考察jsoup、htmlunit、WebCollector爬虫，后发现现有案例并不支持。需求...
爬虫连载系列(3)–用Selenium+xpath爬取京东商城
2021-01-20 03:09

于是，开始研究各种反反爬的机制，IP代理，多线程、模拟登陆… …发现自己的盲区越来越大。眼瞅着与自己的博客更新计划越行越远，只好先换个目标，对某东下手。但并不代表我会放过它，等自己在修炼一段时间，再来会...
scrapy爬虫selenium模拟无法登陆和爬取的问题
2019-01-16 11:28

国师的玄兵是什么的博客使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案，它通吃各种数据加载方式，能够绕过客户JS加密，绕过爬虫检测，绕过签名机制。它的应用，使得许多网站的反采集策略形同虚设。由于selenium不会在...
2021春项目需求记录 python实现模拟登录+爬取NASA Modis 上的产品数据
2021-07-05 16:37

ORonaldinhoO的博客 python实现模拟登录+爬取Nasa Modis 上的产品数据概述基本思路代码概述 3月的中旬时候参与了学校的一个大创项目，作为本科生，本人只是摸鱼打杂，负责了其中的一个功能模块：爬取NASA Modis数据。整个过程也只是...
新浪爬虫，基于Python+Selenium。模拟登陆后保存cookie，实现登录状态的保存。可以通过输入关键词来爬取到关键词相关的热门微博。.zip
2025-08-23 17:26

新浪爬虫项目是基于Python编程语言和Selenium自动化测试工具实现的一个网络爬虫程序，它能够模拟用户登录新浪网，并通过保存登录后的cookie来维持登录状态，进而实现对新浪微博平台的爬取。这个项目非常适合需要进行...
Python Selenium 模拟登陆淘宝滑块验证码老是失败？手动拖动也会失败！大神请指点
2025-04-08 14:17

cda2024的博客你是否遇到过这样令人抓狂的情况：用Python和Selenium编写脚本，试图模拟登录淘宝时，却总是被那顽固的滑块验证码卡住？更糟糕的是，有时候即使你自己手动操作，也难以成功。总之，攻克滑块验证码并不是一件容易的事...
爬虫实战3：模拟登陆知乎并爬取任意帖子数据
2019-05-08 15:31

一不小心写起了代码的博客 selenium+xpath模拟登陆？简单但效率低？难道要靠用这种低效率方式来爬取数据，这是向网站妥协！不，我常威就算没技术也绝对不要这样委屈求全！（十分钟过后）挨，怎么他喵这么香？经过一番曲...
Python+selenium实现自动爬取实例
2018-06-22 16:09

RunnerJxc的博客 Selenium 是一个用于Web应用程序测试的工具。它直接运行在浏览器中，模拟用户操作，就像真正的用户在操作一样。
7.1.4 Selenium 爬取京东商品信息实战
2024-04-05 19:31

学编程的菜恐龙的博客 Selenium 爬取京东商品信息，并存入MySQL 数据库中
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月15日