xpath定位正确但提取文本为空

xpath定位正确但提取文本为空
代码：

import time
from lxml import etree
import requests
from selenium.webdriver.common.by import By
from selenium.webdriver.edge.webdriver import Options
from selenium import webdriver

#构造
options = Options()
options.add_argument('-start-maximized')
driver = webdriver.Edge(options=options)

#获取网页
driver.get("http://www1.xbus.cn/search1.asp")
time.sleep(1)
html = driver.page_source
html =etree.HTML(html)
Html =html
for i in range(4,34):
    time.sleep(1)
    url =html.xpath(f'/html/body/table[3]/tbody/tr/td/table/tbody/tr[1]/td/table/tbody/tr[{i}]/td[2]/a/text()')[0]
    name = url
    driver.find_element(By.XPATH, f'/html/body/table[3]/tbody/tr/td/table/tbody/tr[1]/td/table/tbody/tr[{i}]/td[2]/a').click()
    time.sleep(2)
    html = driver.page_source
    html = etree.HTML(html)
    time.sleep(2)
    url =html.xpath('/html/body/table[4]/tbody/tr/td[1]/table/tbody/tr[2]/td/table/tbody/tr[2]/td/p[1]/a/text()')
    print(url)

为什么为空，帮我改改代码

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

21条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2023-11-17 18:44
关注
获得0.45元问题酬金
引自强大而免费的微信小程序：皆我百晓生。

你的代码中有一个潜在问题。在获取网页后，你将HTML再次赋值给了变量html，但在之后的循环中，你应该使用新的html变量来提取文本。因此，你需要将html =etree.HTML(html)修改为html =etree.HTML(driver.page_source)，以便在每次循环中更新HTML。

以下是修改后的代码：

import time from lxml import etree import requests from selenium.webdriver.common.by import By from selenium.webdriver.edge.webdriver import Options from selenium import webdriver #构造 options = Options() options.add_argument('-start-maximized') driver = webdriver.Edge(options=options) #获取网页 driver.get("http://www1.xbus.cn/search1.asp") time.sleep(1) for i in range(4, 34): time.sleep(1) url = driver.find_element(By.XPATH, f'/html/body/table[3]/tbody/tr/td/table/tbody/tr[1]/td/table/tbody/tr[{i}]/td[2]/a').text driver.find_element(By.XPATH, f'/html/body/table[3]/tbody/tr/td/table/tbody/tr[1]/td/table/tbody/tr[{i}]/td[2]/a').click() time.sleep(2) html = etree.HTML(driver.page_source) time.sleep(2) urls = html.xpath('/html/body/table[4]/tbody/tr/td[1]/table/tbody/tr[2]/td/table/tbody/tr[2]/td/p[1]/a/text()') print(urls) driver.quit()

请尝试运行修改后的代码，看看是否能够正确提取文本。
解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python使用xpath爬取网络数据报表结果为空 python 开发语言有问必答
2021-10-23 17:12

回答 3 已采纳该页面数据在XHR中找，构建一下headers和params，使用如下方式获json数据，然后从中解析即可： response = requests.get('https://fr.oppein.co
xpath定位获取数据为空的问题 python 爬虫
2023-03-23 14:13

回答 1 已采纳 https://blog.csdn.net/superwfei/art
python爬虫xpath提取数据_python爬虫使用xpath解析页面和提取数据
2020-11-24 01:33

weixin_39640573的博客 XPath解析页面和提取数据一、简介关注公众号“轻松学编程”了解更多。XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言。XPath基于XML的树状结构，有不同类型的节点，...
xpath定位的text为空 python selenium 有问必答爬虫
2021-09-14 11:27

回答 4 已采纳有可能你的程序跑到最后的时候，网页还没加载。sleep一下试一试。
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
xpath定位一模一样的元素，为什么selenium会报错 python selenium 爬虫
2021-12-16 20:07

回答 2 已采纳是text的问题，因为获取的内容是隐藏元素的文本，不能直接.text进行获取 from selenium import webdriver driver = webdriver.Chrome()
深入学习XPath：解析和提取XML数据的强大工具
2023-09-06 11:31

前端奇遇记的博客 XPath是一种用于在XML文档中定位和提取信息的强大工具。本文将简要介绍XPath的基础知识，帮助您快速入门并开始在XML数据中提取所需信息。
xpath提取不到 text 文本 python 有问必答
2021-07-19 17:03

回答 4 已采纳选取其所在标签，然后用text属性获取其下所有文本值。 txt='''<div class='item'> <span class="p1">制片国家/地区:</span
从浏览器复制的xpath为什么打出来是个空列表 python 有问必答爬虫
2022-05-13 15:29

回答 2 已采纳积存金是用iframe加载的，在下面这个页面里面https://mybank.icbc.com.cn/icbc/newperbank/perbank3/gold/goldaccrual_query_o
为什么ti.com的xpath无法定位？ python
2022-07-07 06:41

回答 3 已采纳 Login / Register放在影子节点中，需要获取shadowRoot后在定位里面的元素，用下面的js来点击就行 from selenium import webdriver from sel
Python爬虫必备技能，Xpath提取数据规格详解
2020-08-10 13:35

Python新世界的博客 XPath(XML Path Language)是一门在XML文档中查找信息的语言，可以用来在XML文档中对元素和属性进行遍历。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。 ...
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
正则表达式与 XPath 语法领域细解，初学阶段的你，该怎么学？
2021-08-21 16:11

梦想橡皮擦的博客提取属性值或者标签中的文本值在爬虫采集的时候，经常会用到提取标签的属性值，或者提取标签内部的文本值，提取标签属性值可参考如下案例：/book/@cid，提取标签文本，可参考案例为：//book/text()。以上内容即为...
Python：XPath提取猫眼电影
2020-05-14 15:21

嗨学编程的博客使用XPath提取猫眼电影排行榜前100名。https://maoyan.com/board/4 XPath数据提取 XML介绍 XML称为可扩展标记语言，XML是互联网数据传输的重要工具，它可以跨越互联网任何的平台，不受编程语言和操作系统的限制，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月17日

悬赏问题

¥15 差动电流二次谐波的含量Matlab计算
¥15 Can/caned 总线错误问题,错误显示控制器要发1,结果总线检测到0
¥15 C#如何调用串口数据
¥15 MATLAB与单片机串口通信
¥15 L76k模块的GPS的使用
¥15 请帮我看一看数电项目如何设计
¥23 (标签-bug|关键词-密码错误加密)
¥66 比特币地址如何生成taproot地址
¥20 数学建模数学建模需要
¥15 关于#lua#的问题，请各位专家解答！

xpath定位正确但提取文本为空

21条回答 默认 最新

问题事件

悬赏问题

21条回答默认最新