PHP Dom Documents：获取textContent忽略脚本标记和注释

i uses dom doc to load html from database like this:

$doc = new DOMDocument();
@$doc->loadHTML($data);
$doc->encoding = 'utf-8';
$doc->saveHTML();

Then i get the body text by doing these:

$bodyNodes = $doc->getElementsByTagName("body");
$words = htmlspecialchars($bodyNodes->item(0)->textContent);

The words i've gotten included everything in the <body>. Things like <scripts> were also included. How do i removed them and keep only the real text content?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

普通网友 2011-08-28 09:04

关注

You have to visit all nodes and return their text. If some contain other node, visit them too.

This can be done with this basic recursive algorithm:

extractNode:
    if node is a text node or a cdata node, return its text
    if is an element node or a document node or a document fragment node:
        if it’s a script node, return an empty string
        return a concatenation of the result of calling extractNode on all the child nodes
    for everything else return nothing

Implementation:

function extractText($node) {    
    if (XML_TEXT_NODE === $node->nodeType || XML_CDATA_SECTION_NODE === $node->nodeType) {
        return $node->nodeValue;
    } else if (XML_ELEMENT_NODE === $node->nodeType || XML_DOCUMENT_NODE === $node->nodeType || XML_DOCUMENT_FRAG_NODE === $node->nodeType) {
        if ('script' === $node->nodeName) return '';

        $text = '';
        foreach($node->childNodes as $childNode) {
            $text .= extractText($childNode);
        }
        return $text;
    }
}

This will return the textContent of the given $node, ignoring script tags and comments.

$words = htmlspecialchars(extractText($bodyNodes->item(0)));

Try it here: http://codepad.org/CS3nMp7U

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

php添加注释忽略,PHP Dom Documents：获取textContent忽略脚本标记和注释
2021-04-30 05:19

weixin_39593523的博客您必须访问所有节点并返回其文本.如果某些节点包含其他节点,也请访问它们.... } } 这将返回给定$节点的textContent,忽略脚本标记和注释. $words = htmlspecialchars(extractText($bodyNodes->item(0)));
JS中DOM和BOM
2024-10-31 21:09

Super XX.的博客 DOM（文档对象模型）是一个跨平台和语言独立的接口，它允许程序和脚本动态地访问和更新文档的内容、结构和样式。在网页浏览器中，DOM 通常表示 HTML 或 XML 文档的对象模型。DOM 将网页内容视为节点树，其中每个节点...
jquery源码_详细中文注释
2019-02-27 09:05

huang714的博客 * 中文注释 * */ // 写在前面： // jQuery 源码有些方法的实现特别长且繁琐，因为 jQuery 本身作为一个通用性特别强的框架， // 一个方法兼容了许多情况，也允许用户传入各种不同的参数，导致内部处理的逻辑十分...
DOM操作介绍整理（整合资料）
2021-10-22 17:13

whmwjy1997的博客由于项目中，react使用较多，对基本DOM操作会有所疏忽，所以这里总结一下DOM的一些方法，整理在此，有需要者可自行查找学习。本文章是做内容整理，引入部分例子与官方说法。 DOM概述本文主要是总结整理一些DOM的api...
DOM第一天
2020-11-02 21:25

一路冲冲冲的博客 DOM是一个使程序和脚本有能力动态地访问和更新文档的内容、结构以及样式的平台和语言中立的接口。文档树(dom树) 以HTML为根节点形成的一棵倒立的树状结构，我们称作DOM树；这个树上所有的东西都叫节点，节点有很多...
XML DOM教程[转]
2019-09-25 12:31

aobc72208的博客 XML文档对象模型(XML Document Object Model，即：XML DOM)定义了访问和操作XML文档的标准方式。DOM在一个XML文档中是以一个树形结构存在的（不是一个节点树），其中包含了元素、属性以及以节点形式定义的文本。 ...
DOM之Node、NodeList、HTMLCollection、NamedNodeMap、ParentNode、ChildNode、document
2020-04-26 16:21

性灵的博客一、DOM概述《JavaScript权威指南》第15章：脚本化文档每个Window对象有一个document属性引用了Document对象。 Document对象表示窗口的内容，其并非独立的，而是一个巨大的API（应用程序编程接口...DOM是表示和...
前端打包优化全攻略
2025-10-11 12:00

油墨香^_^的博客本文系统介绍了前端工程...文章还提供了企业级构建配置模板和部署方案，包含Docker容器化、Nginx优化配置以及自动化监控脚本。这些优化措施能有效提升应用加载速度30%-50%，降低资源体积40%以上，并显著改善用户体验。
生成式AI提示工程瓶颈突破，Python自动化工具链全解析
2025-12-03 16:01

QuickDebug的博客例如，在Go语言中使用SwagCLI： // @Summary 获取用户信息 // @Description 根据ID返回用户详细数据 // @Param id path int true "用户ID" // @Success 200 {object} User // @Router /users/{id} [get] func ...
学习笔记：MDN的JavaScript
2018-06-10 23:41

weixin_30348519的博客 JavaScript 第一步什么是JavaScript？每次当你浏览网页时不...HTML是一种标记语言，用来结构化我们的网页内容和赋予内容含义，例如定义段落、标题、和数据表,或在页面中嵌入图片和视频。 CSS 是一种样式规则语...
Python学习零基础
2024-03-21 17:05

冰觳的博客直接运行Python文件：在Windows上是不行的，但是，在Mac和Linux上是可以的，方法是在.py文件的第一行加上一个特殊的注释： #!/usr/bin/env python3 print('hello, world') 然后，通过命令给hello.py以执行权限： $...
jQuery中文版（v1.9.1）注释全翻译
2013-02-14 20:15

weixin_34245749的博客 // 脚本向后兼容 jQuery.merge( this, jQuery.parseHTML( match[1], context && context.nodeType ? context.ownerDocument || context : document, true ) ); //处理: $...
最强前端笔记（没有之一）(^-^)
2020-04-30 10:10

撒旦的不归上帝的博客 <video controls> 兼容写法 <source src="test.mp4"> <source src="test.avi"> video> <audio>audio>音频播放请输入邮箱地址请输入网址设置减少和增加的步数"> 只能输入数字 (自动获取焦点) required(控件内容不...
前端基础入门——让页面动起来的JS基础部分
2020-02-13 18:21

请在beep声后留言的博客 JavaScript是一种基于对象和事件驱动的客户端脚本语言，最初的设计师为了检验HTML表单输入的正确性，起源于Netscape公司的Livescript语言。sun公司与Netscape公司合作开发Livescript语言后，把它们主打的Java加到了...
JavaEE 面试题总结
2019-10-05 02:46

datouyin7150的博客中有几种方法可以来设置和获取样式 21 142 、 $(document).ready() 方法和 window.onload 有什么区别？ 21 143 、 jQuery 是如何处理缓存的？ 21 144 、 $.getScript() 方法和 $.getJson() 方法有...
javascrip
2019-09-25 14:10

a8830324的博客 # javascript基础 ## 一、javascript的介绍 ### （一）javascript的诞生 ...1994 年，网景公司（NetScape）发布了Navigator浏览器0.9版，这是历史上第一个...网景公司急需要一门网页脚本语言，使得浏览器可以...
窥探 Script 标签（步入现代 Web 开发的魔法世界）
2017-07-25 20:23

Vincen??的博客 script 标签允许你包含一些动态脚本或数据块到文档中，script 标签是非闭合的，你也可以将动态脚本或数据块当做 script 的文本节点。就是内联脚本。一般我们最常用的就是写一些 JavaScript 脚本在 script 标签里，...
Jquery源码分析
2017-05-14 02:41

W_wjl1900的博客 * 中文注释：Coco * * last-update: 2016-10-10 */ // 写在前面： // jQuery 源码有些方法的实现特别长且繁琐，因为 jQuery 本身作为一个通用性特别强的框架， // 一个方法兼容了许多情况，也允许...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

PHP Dom Documents：获取textContent忽略脚本标记和注释

2条回答默认最新

码龄粉丝数原力等级 --

PHP Dom Documents：获取textContent忽略脚本标记和注释

2条回答 默认 最新

2条回答默认最新