抓取文本时，xpath返回空节点列表

im building a small scraping tool that will scape the urls from a google page. im trying to get the value value from "cite" which holds the url as text. im loading the webpage using curl to the doms load html. when i do a print_r the the results are displayed. so there is no problem with curl

below is my code

    $dom = new DOMDocument();
    $dom->loadHTML($result);

    $xpath = new DOMXPath($dom);

            $elements = $xpath->query("//cite[@class='vurls']");

            print_r($elements);

    foreach ($elements as $entry)
    {
     print_r($entry);
             //show cite url
    }

when i use //cite[@class='vurls'] in the firefox xpath checker it evaluates and shows all the cite text. but in my code the $elements is always empty.

i also tried the full path inside my query

//div[@id='ires']/ol[@id='rso']//li/div/div/div/div/cite

but it still returns a empty value.

an example query is

http://www.google.co.uk/search?q=xpath

can someone please tell me what am i doing wrong?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
doucepei5298 2014-02-04 08:22
关注
Google is serving different HTML depending on the browser used. Have a look at the HTML you receive in PHP, not in Firefox. There is no @class attribute in the <cite/> elements, you need to find another way to query them, eg.

//div[@class='kv']/cite

Anyway: Don't parse Google search results, they offer an API for doing that. Parsing websites is likely to break (because they will change over time, and they do often), APIs are stable.
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于xpath返回空列表的问题 python 有问必答
2021-12-06 18:59

回答 1 已采纳你这个网页中的内容是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通过F12控
关于python的xpath返回空列表的问题求解 python
2022-05-22 11:35

回答 1 已采纳直接用正则匹配啊
用xpath解析返回为空列表 python selenium 爬虫
2023-04-04 16:31

回答 1 已采纳效果如下问题是点击链接之后没有跳转到对应窗口所以找不到对应的XPATH这边也是写了跳转和返回的逻辑构建对象的路径还需要你这边改回来，应该对你有所帮助有用请采纳 from lxml import et
php 获取锚文本,Xpath表达式获取href。不只是锚文本 - php
2021-04-09 10:13

jiyulishang的博客尝试使用xpath表达式来学习它。我找到了一个代码段，并对其进行了一些调整。我想做的是获取页面上的每个链接。$baseurl = "http://www.example.com";$html = file_get_contents($baseurl);$dom = new DOMDocument();...
关于使用xpath解析数据返回空列表 python
2020-10-28 20:47

回答 1 已采纳网页上的所有东西，都可以用js来生成，而requests获取的，只是服务器第一次渲染的html内容。等浏览器运行后，js开始运行的时候，JS可以再次对原始的html进行修改。 sel
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
求救py爬虫Xpath 子节点返回为空 python 有问必答
2021-07-02 15:30

回答 1 已采纳你用requests请求的，响应内容不能看开发者的elements标签的，你要看network的doc，如图最简单解决方法是用selenium打开网页，然后获取网页内容再获取数据如果对你有帮助，
php中xpath,在PHP中运行XPath查询
2021-05-03 05:50

华铁卢的博客在PHP中运行XPath查询Builder.com30/3/2005URL: http://www.zdnet.com.cn/developer/webdevelop/story/0,3800067013,39360703,00.htmXPath是一种可以对XML文档中的某一部分进行单独处理的一种语言，对于XSLT转换而言...
Python使用xpath无论如何都返回空列表 python 有问必答爬虫
2022-02-14 15:59

回答 3 已采纳 tree=etree.HTML('page_text')改为tree=etree.HTML(page_text) 加载变量的值，而不是直接加载page_text这字符，当然无法找到内容
xpath 获取当前节点标签名 python 全文检索数据挖掘
2021-03-25 13:22

回答 4 已采纳 from lxml import etreehtml = "world"a = etree.HTML(html)print(a.xpath("local-name(//a[@id='1'])"))pr
pycharm中xpath返回的一直是一个空列表 python
2022-10-18 22:14

回答 2 已采纳 Xpath定位少一步，我的代码和结果是这个，你看看是不是你的需求，有问题再说替换你的解析代码如下 html = etree.HTML(resp.text) divs = html.x
xpath节点选择
2019-11-14 18:29

程序猿玖月柒的博客 XPath语法和lxml模块 XPath 1.什么是XPath 2.XPath 开发工具 3.Chrome中安装XPath 开发工具不能使用 4.选取节点 5.谓语（Predicates） 6.选取未知节点 7.选取若干路径 8.XPath的运算符 lxml库 1....
php xpath将节点值作为Array返回 php xml
2014-03-08 15:04

回答 1 已采纳 XPath queries return a sequence of result nodes, not a single one. SimpleXML returns this as an ar
python xpath定位不到_python3中使用xpath无法定位，为什么一直返回空列表？
2020-12-04 04:39

weixin_39525313的博客 tbody问题:在爬去某些网站一些信息的时候，xpath工具上显示类容是正确的，但是在scrapy代码中一直返回空列表Scrapy的部分代码：class LotteryspiderSpider(scrapy.Spider):#爬虫名字name = 'LotterySpider'#允许的...
php抓取微博特殊客户,抓取某一用户微博
2021-04-27 10:30

活着奔跑的博客任务目标1. 选取任意用户的微博(首页)2. 抓取信息，包括: 用户名称、用户简介、前10条微博信息... Cookie登录抓取用户名称和用户简介需要抓取的信息用户名称用户简介安装Seleniumpip install Selenium安装phantomjsh...
没有解决我的问题, 去提问

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题