使用php DOMDocument从网页中提取文本

I have the following script that works almost fine except two things:

I still have unknows tags such as <note>, <to>, or <?xml version="1.0" encoding="ISO-8859-1"?>
I also have javascript script, i've tried to exclude them with //text()[not(self::script)] but this breaks the xpath

Script:

$contents = file_get_contents("http://www.w3schools.com/php/php_xml_dom.asp");
$dom = new DOMDocument();
@$dom->loadHTML($contents);
$dom->preserveWhiteSpace = false;
$xpath = new DOMXPath($dom);
// see http://www.w3schools.com/xpath/xpath_syntax.asp
$hrefs = $xpath->evaluate("//text()");
for ($i = 0; $i < $hrefs->length; $i++)
  echo $hrefs->item($i)->nodeValue;

Do you have a better solution to extract text from a webpage ?

Note: I could simply use strip_tags, but I want to stick with DOMDocument.

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
doupao3662 2012-03-18 13:01
关注
I've always used this http://simplehtmldom.sourceforge.net/ and every time with success.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

HtmlDom.rar_HTML dom_PHP HTMLdom
2022-09-22 18:22

HTML DOM（Document Object Model）是HTML和XML文档的树型结构表示，它为网页提供了一种标准的编程接口，使得开发者可以通过JavaScript或PHP等语言来操作网页中的元素，实现动态更新、添加、删除以及修改页面内容。...
PHP在网页中动态生成PDF文件详细教程
2020-12-18 20:30

我们可以使用 PHP 的 DOMDocument 类解析 XML 文件，提取所需信息，然后使用 FPDF 来生成 PDF 报告。`getResults()` 函数在 XML 数据中遍历 event 和 game 标签，将其转换为 PHP 数组。然后可以将这些数据传递给 ...
SVG映射反爬示例练习直接提取SVG文字图片的文本
2022-03-01 23:23

web15085181368的博客 Python提取CSS图片背景偏移定位的数据：https://blog.csdn.net/as604049322/article/details/118401598 2万字硬核剖析网页自定义字体解析：https://blog.csdn.net/as604049322/article/details/119333427 woff字体...
使用PHP实现Web爬虫
2024-07-01 11:24

IT数据小能手的博客在本文中，我们将学习如何使用php编写web爬虫，并使用它进行文本挖掘和数据分析。您可以使用任何文本编辑器来编写Web爬虫，但是我们推荐使用专业的PHP开发工具，如“PHPStorm”或“Sublime Text”。该程序叫做“深度...
使用PHP创建一个简单的Web爬虫
2024-06-28 16:05

IT数据小能手的博客在上面的代码中，我们创建了一个空的DOMDocument对象，并使用loadHTML函数将获取到的HTML页面载入到DOMDocument对象中。在上面的代码中，我们使用strpos函数来判断标签的文本内容是否包含"广告"关键字，在包含时，...
富文本中提取信息并去除其中的HTML或XML标签
2024-07-15 21:08

flying jiang的博客要从富文本中提取信息并去除其中的HTML或XML标签，可以使用不同的编程语言和库。
前端网页富文本编辑器如何实现图片复制粘贴上传功能？
2025-10-20 14:28

全武凌(荆门泽优)的博客点击查看配置教程功能演示编辑器界面导入Word文档,支持doc,docx 导入Excel文档,支持xls,xlsx 粘贴Word 一键粘贴Word内容，自动上传Word中的图片，保留文字样式。 Word转图片一键导入Word文件，并将Word文件转换...
基于PHP的多彩php小说采集系统v1.0源码.zip
2023-10-10 20:33

2. DOM解析：通过DOM库（如PHP的DOMDocument和DOMXPath），解析HTML文档结构，便于更精确地定位和提取所需数据。 3. HTTP请求：利用PHP的cURL或file_get_contents函数发送HTTP请求，获取网页内容。 4. 数据抓取策略...
基于PHP的仿谷姐搜索源代码.zip
2023-07-25 08:15

然后，使用DOMDocument或SimpleXMLElement类解析HTML，提取关键词和其他相关信息。 **关键词索引** 搜索引擎需要建立一个关键词索引，以便快速查找相关网页。在这个项目中，可能会用到PHP的数据结构，如数组或关联...
基于PHP的筱瞳影视自动采集网站源码 php版.zip
2023-08-29 00:17

- **DOM解析**：如PHP的DOMDocument和DOMXPath，用于结构化地处理HTML文档。 - **HTTP协议**：理解GET和POST请求，以及如何使用cURL库发送请求。 - **数据清洗**：处理抓取到的脏数据，去除广告、无关内容等。 - **...
没有解决我的问题, 去提问

使用php DOMDocument从网页中提取文本

1条回答 默认 最新

1条回答默认最新