用xpath解析返回为空列表

想要通过selenium和xpath获取“中招体育考试”百度资讯每条新闻的内容，但一直返回列表不知道哪里出现了问题。
初学者，求各位指点

from lxml import etree
from time import sleep
from selenium.webdriver import ChromeOptions
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])
s = Service(executable_path=r'C:\Users\86198\Desktop\python基础\chromedriver.exe')
brs = webdriver.Chrome(service=s)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
brs.get('https://www.baidu.com/')
sleep(1)
brs.find_element(By.XPATH,r'//*[@id="kw"]').send_keys('中招体育考试')
brs.find_element(By.XPATH,r'//*[@id="su"]').click()
sleep(2)
brs.find_element(By.XPATH,r'//*[@id="s_tab"]/div/a[1]').click()        # 点击资讯
brs.find_element(By.XPATH,r'//*[@id="header_top_bar"]/div[2]/span').click()
brs.find_element(By.XPATH,r'//*[@id="c-tips-container"]/div[1]/div/div/ul[2]/li/a').click()      # 点击按时间排序
brs.find_element(By.XPATH,r'//*[@id="header_top_bar"]/div[1]/div/span').click()
brs.find_element(By.XPATH,r'//*[@id="c-tips-container"]/div[2]/div/div/ul/li[3]/a').click()   # 点百家号
sleep(2)

labels = brs.find_elements(By.XPATH,r'//div[@id="content_left"]/div[@class="result-op c-container xpath-log new-pmd"]')
length = len(labels)
for i in range(0,length):
    labels[i].find_element(By.XPATH,r'.//h3/a').click()
    sleep(5)

    text = brs.page_source
    html = etree.HTML(text)
    title = html.xpath('//*[@id="ssr-content"]/div[2]/div/div[1]/div[1]/div/div[1]/text()')
    source = html.xpath('//*[@id="ssr-content"]/div[2]/div/div[1]/div[1]/div/div[2]/div[2]/a/p/text()')
    print(title,source)
    sleep(5)

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

Dick_不周 2023-04-04 09:54

关注

效果如下

问题是点击链接之后没有跳转到对应窗口
所以找不到对应的XPATH
这边也是写了跳转和返回的逻辑
构建对象的路径还需要你这边改回来
，应该对你有所帮助
有用请采纳

from lxml import etree
from time import sleep
from selenium.webdriver import ChromeOptions
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
brs =webdriver.Chrome('D:\\20220526\\chromedriver.exe')
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
brs.get('https://www.baidu.com/')
sleep(1)
brs.find_element(By.XPATH, r'//*[@id="kw"]').send_keys('中招体育考试')
brs.find_element(By.XPATH, r'//*[@id="su"]').click()
sleep(2)
brs.find_element(By.XPATH, r'//*[@id="s_tab"]/div/a[1]').click()  # 点击资讯
brs.find_element(By.XPATH, r'//*[@id="header_top_bar"]/div[2]/span').click()
brs.find_element(By.XPATH, r'//*[@id="c-tips-container"]/div[1]/div/div/ul[2]/li/a').click()  # 点击按时间排序
brs.find_element(By.XPATH, r'//*[@id="header_top_bar"]/div[1]/div/span').click()
brs.find_element(By.XPATH, r'//*[@id="c-tips-container"]/div[2]/div/div/ul/li[3]/a').click()  # 点百家号
sleep(2)

labels = brs.find_elements(By.XPATH, r'//div[@id="content_left"]/div[@class="result-op c-container xpath-log new-pmd"]')
length = len(labels)
sousuo_window = brs.current_window_handle
for i in range(0, length):
    if brs.current_window_handle != sousuo_window :
        brs.close()
        brs.switch_to.window(sousuo_window)

    labels[i].find_element(By.XPATH, r'.//h3/a').click()
    sleep(5)
    for window_handles in brs.window_handles :
        if brs.current_url != window_handles :
            brs.switch_to.window(window_handles)
    text = brs.page_source
    html = etree.HTML(text)
    title = html.xpath('//*[@id="ssr-content"]/div[2]/div/div[1]/div[1]/div/div[1]/text()')
    source = html.xpath('//*[@id="ssr-content"]/div[2]/div/div[1]/div[1]/div/div[2]/div[2]/a/p/text()')
    print(title, source)
    sleep(5)

展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

VICTORY^ 2023-04-07 06:47

非常感谢

编辑

预览

报告相同问题？

关注问题

Python爬虫实战之xpath解析
2022-08-01 11:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
爬虫入门之xpath解析
2022-08-29 15:58

stiinput的博客摘要：Python爬虫库中有一种语法，Xpath语法，可以对网页内容进行详细的解析，能够让我们在爬取网页内容时，省时高效。
深入XPath的详解以及Java示例代码分析
2020-09-04 21:57

在Java编程中，XPath通常与DOM（文档对象模型）结合使用，用于解析和操作XML文件。以下是对XPath进行深入详解及Java示例代码的分析。一、XPath中的节点类型 XPath定义了七种基本的节点类型： 1. **元素（Element...
python爬虫小结（-xpath解析）：（1）
2021-11-17 12:00

xiao52x的博客 # 一定要在循环内，否则一直为"https://pic.netbian.com/4kmeinv/index_2.html" # 关于为什么后面是/4kmeinv/index_{0}.html 代码后讲解 url = "https://pic.netbian.com/4kmeinv/index_{0}.html" url = url....
Python爬虫爬取豆瓣数据XPath的使用
2022-01-18 09:13

侯小啾的博客通过使用requests. lxml, csv 三个模块，爬取豆瓣电影Top250的电影名称，评分，引言，详情页的url。爬取1-10页，并保存在csv文件中。
浅谈解析库XPath，bs4和pyquery
2020-04-01 02:25

后浪v的博客《浅谈解析库XPath，bs4和pyquery》作者：墨非墨菲非菲前几天在CSDN看到一篇帖子，题目是“如何让自己像打王者一样发了疯，拼了命，石乐志的学习”。这里面讲到了阶段性反馈机制，我觉得蛮有意思的，正好前两天用...
Xpath高级使用方法(全网最全)
2019-05-18 11:23

拼命_小李的博客 xpath速度比较快，是爬虫在网页定位中的较优选择，但是很多网页前端代码混乱难以定位，而学习定位也较为不易（主要是全面的教程较少），这里列出一点编程过程中可能有用的东西，欢迎共同学习批评指正。试验环境：...
Python爬虫神器Xpath的使用
2020-04-01 12:37

Python新世界的博客在用 Python 实现爬虫时，可以使用 requests 库访问资源，然后用正则表达式提取信息。但是，这里会有一些繁琐，因为正则表达式的书写是比较严格的，万一有一个地方写错了，可能会导致匹配失败无法提取需要的信息。...
JAVA源码用jdom解析xmlJAVA源码用jdom解析xml
2024-10-07 06:07

JAVA使用JDOM解析XML是一种常见的技术应用，主要面向对象的编程方式处理XML数据。JDOM是一种简单、轻量级的Java API，专门用于读写XML数据。不同于DOM和SAX，JDOM的API更接近于Java习惯用法，提供了更简洁的接口和更...
python xpath爬取新闻标题_Python利用requests和xpath爬取网页内容过程
2020-12-09 08:37

weixin_39611331的博客之后会练习使用find_all()函数需要安装lxml库，xpath()方法放回的结果是一个列表1.1 XPath 常用规则例子：这是一个 XPath 规则，代表的是选择所有名称为 title，同时属性 class 的值为 eng 的节点，后面会通过 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月4日

用xpath解析返回为空列表

1条回答 默认 最新

问题事件

1条回答默认最新