如何正则表达式刮取HTML并忽略代码中的空格和换行符？

I'm putting together a quick script to scrape a page for some results and I'm having trouble figuring out how to ignore white space and new lines in my regex.

For example, here's how the page may present a result in HTML:

<td class="things">
    <div class="stuff">
        <p>I need to capture this text.</p>
    </div>
</td>

How would I change the following regex to ignore the spaces and new lines:

$regex = '/<td class="things"><div class="stuff"><p>(.*)<\/p><\/div><\/td>/i';

Any help would be appreciated. Help that also explains why you did something would be greatly appreciated!

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongpengqin3898 2012-04-03 19:19
关注
Needless to caution you that you're playing with fire by trying to use regex with HTML code. Anyway to answer your question you can use this regex:

$regex='#^<td class="things">\s*<div class="stuff">\s*<p>(.*)</p>\s*</div>\s*</td>#si';

Update: Here is the DOM Parser based code to get what you want:

$html = <<< EOF <td class="things"> <div class="stuff"> <p>I need to capture this text.</p> </div> </td> EOF; $doc = new DOMDocument(); libxml_use_internal_errors(true); $doc->loadHTML($html); // loads your html $xpath = new DOMXPath($doc); $nodelist = $xpath->query("//td[@class='things']/div[@class='stuff']/p"); for($i=0; $i < $nodelist->length; $i++) { $node = $nodelist->item($i); $val = $node->nodeValue; echo "$val "; // prints: I need to capture this text. }

And now please refrain from parsing HTML using regex in your code.
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

如何正则表达式刮取HTML并忽略代码中的空格和换行符？ html php
2012-04-03 19:14

回答 3 已采纳 Needless to caution you that you're playing with fire by trying to use regex with HTML code. Anywa
Python 如何用正则表达式只保留字符串中汉字和换行符？ python
2019-09-18 10:51

回答 2 已采纳 https://blog.csdn.net/qq_39314099/article/details/88355445 https://blog.csdn.net/mp624183768/articl
如何在正则表达式中使用变量？ javascript 前端正则表达式
2022-01-09 11:44

回答 1 已采纳 /regex\d/g您可以构造一个新的RegExp对象，而不使用语法：var replace = "regex\d";var re = new RegExp(replace,"g"); 您可以通过这种
正则表达式
2023-01-02 10:38

悠然予夏的博客介绍了JavaScript的正则表达式，并演示了其用法
怎么用正则表达式来提取一段话的不同数据，并把他们分别放入excel中？ python 正则表达式
2022-06-27 17:34

回答 1 已采纳拿得用后端来做。前端做不到。先读取文件。然后用正则、字符串分割提取数据（存起来）。再然后用插件生成 excel . 你这个 txt 感觉没啥统一的规律。得统一才能用
python如何用正则表达式提取一个段落中的其中一句话呢？ html python 正则表达式
2022-03-31 00:35

回答 2 已采纳数字用\d即可
正则表达式如何写，在一段字符串中提取指定的内容。 python 正则表达式
2022-05-03 20:38

回答 8 已采纳 import re text = """福建省2022年道路交通事故人身损害赔偿相关数据【福建一般地区（除厦门外）】 1、全省城镇居民人均年可支配收入 51140元2、全省农村居民人均年可支配收
正则表达式去掉回车、换行、空白符号、空格
2022-09-17 11:47

susu1083018911的博客 正则表达式去掉回车、换行、空白符号、空格
正则表达式 匹配正负整数和正负小数或者空有问必答正则表达式
2021-08-25 15:28

回答 6 已采纳已私聊解决
如何用正则表达式去除数组里每一项的空格？前端正则表达式
2021-12-27 20:48

回答 2 已采纳 var speTableData = [ { arr2: [' 你好 ', ' 今天是晴天 '] }, { arr2: [' 你
为什么一用正则表达式就报错啊？ jquery 正则表达式
2022-01-11 21:09

回答 3 已采纳 retTitle没有值，把上面的ajax改为同步
正则表达式的使用与 Java按空格分割字符串
2021-12-06 15:07

gfu_的博客目录一、正则表达式1. 正则表达式简介2. 元字符2.1 锚点2.2 点运算符 `.`2.3 字符集2.4 重复次数2.5 `{}` 号2.6 `(...)` 特征标群2.7 `|` 或运算符2.8 转码特殊字符3. 简写字符集4. 零宽度断言（前后预查）4.1 `?=.....
想使用正则表达式匹配，提取文本中特定的内容。 python 正则表达式
2022-01-19 16:23

回答 2 已采纳这应该就是你想要的功能： import os, re def GetMiddleStr(content,startStr,endStr): '''提取字符串content当中，startStr
JavaScript高级—正则表达式（正则表达式在 JavaScript 中的使用、正则表达式中的特殊字符、正则表达式中的替换）
2022-03-24 15:22

Just-Lsy的博客 正则表达式（ Regular Expression ）是用于匹配字符串中字符组合的模式。在 JavaScript 中，正则表达式也是对象。正则表通常被用来检索、替换那些符合某个模式（规则）的文本，例如验证表单：用户名表单只能输入...
【RegExp】正则表达式
2022-05-28 16:24

贺情的博客什么是正则表达式？ 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。 ...
没有解决我的问题, 去提问

悬赏问题

¥28 微信小程序开发页面布局没问题，真机调试的时候页面布局就乱了
¥15 python的qt5界面
¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能
¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败
¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀

如何正则表达式刮取HTML并忽略代码中的空格和换行符？

3条回答 默认 最新

悬赏问题

3条回答默认最新