如何使用PHP从HTML文档中仅提取某些标签？

I'm using a crawler to retrieve the HTML content of certain pages on the web. I currently have the entire HTML stored in a single PHP variable:

$string = "<PRE>".htmlspecialchars($crawler->results)."</PRE>
";

What I want to do is select all "p" tags (for example) and store their in an array. What is the proper way to do that?

I've tried the following, by using xpath, but it doesn't show anything (most probably because the document itself isn't an XML, I just copy-pasted the example given in its documentation).

$xml = new SimpleXMLElement ($string);

    $result=$xml->xpath('/p');
    while(list( , $node)=each($result)){
        echo '/p: ' , $node, "
"; 
    }

Hopefully someone with (a lot) more experience in PHP will be able to help me out :D

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douxu5233 2012-03-27 13:56
关注
Check out Simple HTML Dom. It will grab external pages and process them with fairly accurate detail.

http://simplehtmldom.sourceforge.net/

It can be used like this:

// Create DOM from URL or file $html = file_get_html('http://www.google.com/'); // Find all images foreach($html->find('img') as $element) echo $element->src . ' ';
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

php如何提取json类型的数据,我如何从PHP中提取JSON数据？
2021-04-21 20:58

weixin_39734020的博客介绍首先你有一个string。... 使用json_decode()在PHP中对其进行解码。$data = json_decode($json);其中你可能会发现：标量： string ，整数，浮点数和布尔值空值 (它自己的特殊types)复合types：对象...
html语言div怎么使用,什么是div标签？HTML中div标签怎么使用？
2021-06-11 04:27

舒琪学姐的博客 HTML中的div标签是实现网页的重要基础，是学习HTML知识必不可少的内容，本篇文章就来为大家介绍关于HTML中div标签的使用方法。什么是div标签？div标签表示一组必要的结构。目的是将夹在div标签之间的字符分成块状。...
使用phpword实现读取word文档内容
2021-07-08 05:57

Eternally1024的博客 php namespace app\tools\controller; use PhpOffice\PhpWord\IOFactory; use think\Controller; class ReaderWord extends Controller { public function __construct() { parent::__construct(); } public ...
[PHP]取html所有img标签的src属性值
2018-07-05 03:46

Balmunc的博客 preg_match_all('/<img[^>]*?src="([^"]*?)"[^>]*?>/i',$str,$match); echo $match[1];
使用php进行文章关键字(标签)的提取
2018-11-01 07:40

づ奈何ā的博客对于这个问题，还真是搜索了大量的资料，网上就没有个现成的好的文档进行说明一下，该如何弄。没办法自己搞吧。黄天不负有心人，经过一下午的搜索查找，筛选，终于找到一个纯php实现的中文切分工具。 ...
PHP扩展库 PHP-FFMPEG 中文使用说明（转载）
2021-01-15 11:56

左小皓的博客 PHP使用FFMpeg来转换视频格式。Github上搜索FFMPEG,到https://github.com/PHP-FFMpeg/PHP-FFMpeg。 For Windows users : Please find the binaries athttp://ffmpeg.zeranoe.com/builds/.详细使用过程，见我上一篇...
php的数据怎样传到html页面,php文件与HTML页面的数据交互
2021-04-26 11:24

壮泉四十的博客注意：首先需要保证本地配置了php开发环境，如WAMP开发环境WAMP配置：https://www.cnblogs.com/shiyiaccn/p/9984579.htmlphp获取HTML页面返回的数组并写入文档HTML发送(使用POST发送)doctype html>无标题文档...
html中id属性,html中的id属性是什么？id属性的使用
2021-06-12 04:36

马克维的博客本篇文章给大家带来的内容是介绍html中的id属性，让大家了解id属性的使用方法，希望对大家有所帮助。html的id属性是什么？html的id属性其实就是一个HTML元素标签的标志，可以用来唯一表示该元素的标识符；它在 HTML ...
文本文档类型怎么改php,如何更改文件类型（3种方法）
2021-04-21 17:48

靖dede的博客电脑中有很多种文件，每种文件都以它们的扩展名标识，如，扩展名为 .txt，则说明是文本文件；扩展名为 .mp3，说明是歌曲文件等。既然如此，更改文件类型是不是修改文件扩展名就可以了呢？对大多数文件来说，修改文件...
正则匹配提取多个重复的html标签内容
2020-03-13 07:32

moqiluoji的博客遇到这样的场景: 有一个html标签如下: $str = 'sddf aaahbaskdf<...我需要提取标签中 中间的内容即aaa,vvv和ccc 如果使用preg_match直接匹配,代...
没有解决我的问题, 去提问

如何使用PHP从HTML文档中仅提取某些标签？

3条回答 默认 最新

3条回答默认最新