PHP getElementById行为与元素共享id

I'm using some simple php to scrape information from a website to allow reading it offline. The code seems to be working fine but I am worried about undefined behaviour. The site is a bit poorly coded and some of the elements I'm grabbing share the same id with another element. I'd imagine that getElementById traverses the DOM from top to bottom and the reason I'm not having an issue is because the element I need is the first instance with the id. Is there any way to ensure this behaviour? The element has no other real way of distinguishing it so selecting it by id seems to be the best option. I have included a stripped back example of the code I'm using below.

Thanks.

<?php

$curl_referer = "http://example.com/";
$curl_url = "http://example.com/content.php";

$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, 'Scraper/0.9');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, false);
curl_setopt($ch, CURLOPT_REFERER, "$curl_referer");
curl_setopt($ch, CURLOPT_URL, "$curl_url");
$output = curl_exec($ch);

$dom = new DOMDocument();
@$dom->loadHTML($output);

$content = $dom->getElementById('content');
echo $content->nodeValue;
?>

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dream543211 2014-01-05 03:52
关注
Try using XPath expression to get the first containing id. Like that: //*[@id="content"][1]

The PHP code will be like that:

$xpath = new DOMXPath($dom); $xpath->query('//*[@id="content"][1]')->item(0)->nodeValue;

And an tip: use libxml_use_internal_errors(true), you can catch they latter for logging or try tidying-up the document.

Edit
Hey, in your code you're setting the UA as "Scraper/0.9", most people that write a bad website doesn't look at that and doesn't do logging incoming requests in their pages, but, i don't recommend to put UA like that, just put an browser UA, like chrome's user-agent because if they're monitoring and see requests that contains this user-agent, they will be blacklist you (future).
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

php课后习题及答案php
2022-03-27 06:35

document.getElementById(”元素id名”)：正确，根据 ID 获取元素。 - B. document.getElementByName(”元素名”)：错误，应为 document.getElementsByName()。 - C. document.getElementByTagName(”标记名”)：...
PHP+HTML实现登出界面倒计时效果1
2022-08-03 12:22

根据给定的文件信息，本文将详细介绍如何使用PHP与HTML结合JavaScript来实现一个登出界面的倒计时效果。此功能不仅增强了用户体验，还能确保在用户登出后能够自动跳转至首页，使得整个登出过程更加流畅。 ### 一、...
php下的原生ajax请求用法实例分析
2020-12-19 19:46

- 为了避免跨域问题，确保前端和后端在同一域名下，或者启用CORS（跨源资源共享）设置。 - POST请求中，记得设置`Content-Type`头，通常为`application/x-www-form-urlencoded`，以正确地传递表单数据。 - 错误...
php+ajax实时刷新简单实例
2020-12-18 06:19

AJAX（Asynchronous JavaScript and XML）是异步JavaScript和XML的缩写，它允许网页在不重新加载整个页面的情况下与服务器交换数据并更新部分网页内容。这大大提升了用户体验，使得用户在等待新数据加载时无需等待...
php 资源共享,低调共享者_资源共享
2021-04-28 16:45

小鐘哥的博客 svg图形 menu.svg文件 2021-3-4/ 54 次浏览/ 方法一 array.indexOf()方法可以返回数组中某个指定的元素位置，该方法会从头到尾地检索数组，检测是否含有对应的元素，如果检索到，则返回元素第一次出现的位置，如果...
artTemplate与php,artTemplate
2021-04-22 03:52

yuwennaxiansheng的博客 artTemplate-3.0新一代 javascript 模板引擎目录特性性能卓越，执行速度通常是 Mustache 与 tmpl 的 20 多倍(性能测试)支持运行时调试，可精确定位异常模板所在语句(演示)对 NodeJS Express 友好支持安全，默认对...
PHP ajax跨子域的解决方案之document.domain+iframe实例分析
2020-10-15 05:53

它是JavaScript中的一个属性，允许我们修改当前文档的域，只要新设置的域是当前域的父域或者与当前域相同。在这种情况下，当两个不同子域的页面（如www.a.com和img.a.com）都设置`document.domain`为它们共同的主域...
php使用workerman进行websoket+tcp多链接
2025-03-21 10:32

He195501的博客 PHP+websocket+TCP实现多连接控制设备
php实现共享单车地图定位,基于JS抓取某高校附近共享单车位置使用web方式展示位置变化代码实例...
2021-04-26 23:51

黄恩韡的博客效果如图js代码如下：function MapOperate() {}MapOperate.prototype.listensubmit = function () {var self = this;var submitBut = $("....var time_id = $("#time-id");var time_now = new Date(time_id.html())...
PHP实现验证文件信息的四六级照片上传维护
2024-10-02 10:05

苏天夏的博客 div> 通过JavaScript知识可知，浏览器中已经自带了拖拽上传和点选上传的方法，我们只需要通过JavaScript绑定与之对应的元素即可，此时很显然，这个div元素就是id="dropZone"。首先定义几个元素的句柄： const ...
PHP实现简单ajax Loading加载功能示例
2020-12-18 01:41

Ajax，即Asynchronous JavaScript and XML，允许我们在不刷新整个网页的情况下与服务器交换数据并局部更新页面。在许多网页应用中，这种加载指示器对于提供更好的用户体验至关重要，尤其是在等待服务器响应时。 ...
PHP登陆-购物车的实现--【白嫖项目】
2023-08-16 15:28

项目花园范德彪的博客本系列校训用免费公开视频，卷飞培训班哈人！打死不报班，赚钱靠狠干！只要自己有电脑，前后项目都能...喜欢的朋友还可以自己查到本站的N多毕业设计与课程设计，如果错误或其它需要请留言!或发邮件至8195819@qq.com
php面试整理
2021-11-14 16:55

一条程序龙o^v^o的博客 php面试整理 *什么是操作系统？知道那些概念（来源于百度）：操作系统（operating system，简称OS）是管理计算机硬件与软件资源的计算机程序。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、...
Ajax+PHP快速上手及简单应用说明
2020-12-18 03:13

document.getElementById('php100').innerHTML = xmlHttp.responseText; } ``` - do.php：接收GET请求，根据$id$值循环输出。 ```php <?PHP $id = @$_GET['id']; for ($i = 1; $i ; $i++) { echo $id; } ...
php 获取微信共享的收货地址
2016-08-05 06:06

大大大zzc的博客必须是微信授权目录我直接放到了根目录其他目录无效 /* * 在执行此操作之前首先判断您是否开通了微信支付功能审核通过后均可使用... * 3、把当前文件 index.php 放入根目录 * 4、用微信访问http://www.ab
php面试题2021(php面试题2020)
2021-11-11 00:50

网站推广优化yetaoaiueo的博客 php面试题解答 varx=document.getElementById("img1"); vartitle=document.getElementById("img1").title; varsina_title=document.getElementById("img1").sina_title; 2,ser...
session过期删除php,session过期怎么恢复?
2021-04-26 14:02

通远的博客如何防止session超时众所周知，当用户登录网站后较长一段时间没有与服务器进行交互，将会导致服务器上的用户会话数据(即session)被销毁。此时，当用户再次操作网页时，如果服务器进行了session校验，那么浏览器将会...
PHP上传图片的具体操作
2020-12-19 06:36

Kiway.的博客 PHP+AJAX上传图片并且可以看到预览效果，小编看到很多都是form表单上传，很难满足需求，通过ajax上传的网上很多都是直接上传完事了，都没有看到效果。直接上代码： <div class="form-group"> <label class...
php全单词是什么意思,是php单词
2021-03-17 13:57

读书猫CC的博客 c语言语系的命名风格和java系命名风格c语言系的命名风格：单词之间使用...java语系是驼峰式命名法，如getElementById()。如果使用c语系命名风格则使用下划线分隔 ge...文章wangtaotao2016-12-25711浏览量剑指Offer...
【php毕业设计】基于php+mysql+mvc的网上留言管理系统设计与实现（毕业论文+程序源码）——网上留言管理系统
2022-06-29 06:05

毕业设计方案专家的博客大家好，今天给大家介绍基于php+mysql+mvc的网上留言管理系统设计与实现，文章末尾附有本毕业设计的论文和源码下载地址哦。文章目录：项目难度：中等难度适用场景：相关题目的毕业设计配套论文字数：12890个字23...
没有解决我的问题, 去提问

PHP getElementById行为与元素共享id

1条回答 默认 最新

1条回答默认最新