PHP正则表达式 - 使用指定类从所有链接获取文本[重复]

Possible Duplicate:
How to parse and process HTML with PHP?

I'm trying to use PHP and regex to grab all the hyperlinks from an external page. The links I care about scraping are structured as follows:

<li class="magic"><a href="http://blah.com">TargetText1</a></li>
<li class="magic"><a href="http://blah.com">TargetText2</a></li>

Please bear in mind I'm trying to get the anchor text NOT the url. I've got the code below working however it simply scrapes all the links on the page. I'm trying to scrape links only wrapped with the li class listed above.

 $url = "http://www.example.com"; 
 $input = @file_get_contents($url) or die("Could not access file: $url"); 

 $regexp = "<a\s[^>]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>";

 if(preg_match_all("/$regexp/siU", $input, $matches)) { 
  print_r($matches);
 }

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongzaizai2015 2012-09-06 23:11
关注
<?php $dom = new domDocument; $dom->loadHTML($html); $dom->preserveWhiteSpace = false; $lis = $dom->getElementsByTagName('li'); foreach($lis as $li){ if($li->getAttribute('class')=='magic'){ $links = $li->getElementsByTagName('a'); if($links->length){ echo $links->item(0)->nodeValue; } } } ?>
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

想要个正则表达式按照指定10字符或者20个字去换行教程 php 有问必答正则表达式
2021-07-27 00:09

回答 1 已采纳 1 查找 ([^\n]{10}) 替换为 $1\n 2 查找[，。？：；‘’！“”—……、]替换为空格替换为这里是普通的字符串，要直接写空格“ ” 不能是正则表达式\s 3 删除多余空白行查
Php pcre正则表达式 - 用反斜杠分割文本 php
2014-04-03 19:23

回答 5 已采纳 Try three slashes \: $arr = preg_split('#[\s|\\\|-]+#u', $aa); And you don't need the alter
如何使用正则表达式从文本中查找和超链接所有URL？ php
2017-07-19 00:11

回答 1 已采纳 This will slightly improve the accuracy of your original pattern. My pattern will operate nearly
第4章数据处理-php正则表达式-郑阿奇(续)
2020-12-19 13:02

在IT行业中，正则表达式（Regular Expression）是一种强大的文本处理工具，广泛应用于PHP等编程语言中，用于数据处理、文本验证、替换和提取特定信息。本章节主要讲解了正则表达式的基础知识和POSIX风格的正则表达式...
正则表达式在html标签之间获取文本 - PHP [重复] html php
2018-01-07 04:43

回答 1 已采纳 try this <?php function teste(){ $string = '<div>Hello, i am João</div><a
PHP正则表达式 - 从文本块的行中获取主机名 php
2011-04-03 17:33

回答 2 已采纳 Well here is a simple approach, use regular expressions one to get this line: Subject: This is so
PHP正则表达式 - 如果自定义标点符号是并排的，则正则表达式不匹配 php
2013-03-29 14:25

回答 2 已采纳 change with: /^[\p{L}\p{N}“”‘’"'][\p{L}\p{N} .,;:?!\-“”‘’"']*$/u NB: - must be escaped if it is
php正则表达式取得内容所有链接的方法
2020-10-25 01:11

标题中的“php正则表达式取得内容所有链接的方法”指的是在PHP语言中使用正则表达式技术来提取HTML或其他文本内容中所有的URL链接地址。描述部分介绍了这是一篇教学性质的文章，提供了两种不同的代码实现方式，供...
在php中使用正则表达式获取值？ php
2017-01-06 12:01

回答 1 已采纳 This would be a simple example: <?php $subject = '<h4><span class="price_label">P
正则表达式怎么提取可能出现的字符但不包括这个字符的内容正则表达式
2022-03-08 18:56

回答 2 已采纳 (?<=(x-main=")|(x-main=))[^"].*?(?=("|$))
用于获取php中字符串中[]之间内容的正则表达式 php
2015-06-17 11:40

回答 2 已采纳 Try this preg_match_all('/\[(.*?)\]/', $txt, $out); print_r($out[1]); get Array ( [0] => th
php使用正则表达式获取图片url的方法
2020-10-24 21:12

例如，可以修改正则表达式来提取链接、文本内容等。需要注意的是，在实际应用中，正则表达式应当根据具体的HTML结构和需求进行调整，因为不同的HTML元素和属性可能导致正则表达式的改变。此外，过度依赖正则表达式...
php正则表达式获取内容所有链接
2021-01-20 00:53

方法一： function get_all_url($code){ preg_match_all('/[|>' ]+)[|']?s*[^>]*>([^>]+)</a>/i',$code,$arr); return array('name'=>$arr[2],'url'=>$arr[1]); } ...$site=substr($url,0,strpos($url,/,8));...
PHP使用正则表达式清除超链接文本
2020-10-26 17:05

在PHP中，正则表达式是一种强大的文本处理工具，尤其在处理HTML文本时，它可以用来查找、替换或提取特定模式的字符串。在这个场景下，我们要讨论的是如何使用正则表达式来清除HTML文本中的超链接内容。超链接通常由`...
正确的PHP匹配UTF-8中文的正则表达式
2020-10-24 05:53

总结一下，PHP正则表达式在处理UTF-8编码的中文字符时，关键是要使用正确的字符集范围，并开启UTF-8模式。这不仅可以提高正则表达式的准确性，而且可以避免潜在的国际化问题。对于开发人员而言，在编码过程中留意...
没有解决我的问题, 去提问

悬赏问题

¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥20 想用ollama做一个自己的AI数据库
¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
¥15 请问怎么才能复现这样的图呀

PHP正则表达式 - 使用指定类从所有链接获取文本[重复]

1条回答 默认 最新

悬赏问题

1条回答默认最新