PHP正则表达式 - 使用指定类从所有链接获取文本[重复]

Possible Duplicate:
How to parse and process HTML with PHP?

I'm trying to use PHP and regex to grab all the hyperlinks from an external page. The links I care about scraping are structured as follows:

<li class="magic"><a href="http://blah.com">TargetText1</a></li>
<li class="magic"><a href="http://blah.com">TargetText2</a></li>

Please bear in mind I'm trying to get the anchor text NOT the url. I've got the code below working however it simply scrapes all the links on the page. I'm trying to scrape links only wrapped with the li class listed above.

 $url = "http://www.example.com"; 
 $input = @file_get_contents($url) or die("Could not access file: $url"); 

 $regexp = "<a\s[^>]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>";

 if(preg_match_all("/$regexp/siU", $input, $matches)) { 
  print_r($matches);
 }

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongzaizai2015 2012-09-06 23:11
关注
<?php $dom = new domDocument; $dom->loadHTML($html); $dom->preserveWhiteSpace = false; $lis = $dom->getElementsByTagName('li'); foreach($lis as $li){ if($li->getAttribute('class')=='magic'){ $links = $li->getElementsByTagName('a'); if($links->length){ echo $links->item(0)->nodeValue; } } } ?>
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

PHP正则表达式 - 使用指定类从所有链接获取文本[重复] php
2012-09-06 23:04

回答 1 已采纳 <?php $dom = new domDocument; $dom->loadHTML($html); $dom->preserveWhiteSpac
想要个正则表达式按照指定10字符或者20个字去换行教程 php 有问必答正则表达式
2021-07-27 00:09

回答 1 已采纳 1 查找 ([^\n]{10}) 替换为 $1\n 2 查找[，。？：；‘’！“”—……、]替换为空格替换为这里是普通的字符串，要直接写空格“ ” 不能是正则表达式\s 3 删除多余空白行查
如何使用正则表达式从文本中查找和超链接所有URL？ php
2017-07-19 00:11

回答 1 已采纳 This will slightly improve the accuracy of your original pattern. My pattern will operate nearly
第4章数据处理-php正则表达式-郑阿奇(续)
2020-12-19 13:02

1.正则表达式基础知识含义：由普通字符和（a-z)和一些特殊字符组成的字符串模式功能：有效性验证。替换文本。从一个字符串提取一个子字符串。分类：POSIX和Perl POSIX风格更容易掌握，但不能用于二进制模式，而...
正则表达式在html标签之间获取文本 - PHP [重复] html php
2018-01-07 04:43

回答 1 已采纳 try this <?php function teste(){ $string = '<div>Hello, i am João</div><a
PHP正则表达式 - 从文本块的行中获取主机名 php
2011-04-03 17:33

回答 2 已采纳 Well here is a simple approach, use regular expressions one to get this line: Subject: This is so
Php pcre正则表达式 - 用反斜杠分割文本 php
2014-04-03 19:23

回答 5 已采纳 Try three slashes \: $arr = preg_split('#[\s|\\\|-]+#u', $aa); And you don't need the alter
php正则表达式获取内容所有链接
2021-01-20 00:53

方法一： function get_all_url($code){ preg_match_all('/[|>' ]+)[|']?s*[^>]*>([^>]+)</a>/i',$code,$arr); return array('name'=>$arr[2],'url'=>$arr[1]); } ...$site=substr($url,0,strpos($url,/,8));...
在php中使用正则表达式获取值？ php
2017-01-06 12:01

回答 1 已采纳 This would be a simple example: <?php $subject = '<h4><span class="price_label">P
正则表达式怎么提取可能出现的字符但不包括这个字符的内容正则表达式
2022-03-08 18:56

回答 2 已采纳 (?<=(x-main=")|(x-main=))[^"].*?(?=("|$))
PHP正则表达式 - 如果自定义标点符号是并排的，则正则表达式不匹配 php
2013-03-29 14:25

回答 2 已采纳 change with: /^[\p{L}\p{N}“”‘’"'][\p{L}\p{N} .,;:?!\-“”‘’"']*$/u NB: - must be escaped if it is
PHP使用正则表达式清除超链接文本
2020-10-26 17:05

有些时候，我们需要对一些html文本进行处理，比如需要将文本中的超链接内容去除，这个时候就需要用到正则表达式
用于获取php中字符串中[]之间内容的正则表达式 php
2015-06-17 11:40

回答 2 已采纳 Try this preg_match_all('/\[(.*?)\]/', $txt, $out); print_r($out[1]); get Array ( [0] => th
php使用正则表达式获取域名,php 域名正则表达式
2021-04-14 11:58

weixin_39782832的博客 :_| HBase/CloudTable增量迁移使用时间宏变量完成增量同步事务模式迁移迁移文件时加解密 MD5校验文件一致性字段转换文件列表迁移 正则表达式分隔半结构化文本文件格式介绍 absolutelyPeriod 说明：绝对时间...
php获取超链接文本内容的正则表达式(五种方法)
2021-01-19 20:51

废话不多说了，直接跟大家分享五种方法，通过代码讲解php获取超链接文本内容的正则表达式。 //方法一 preg_match_all（/<（a|a）[s]{0,1}[w=:（）]*>[ ]*（check user）[ ]*</（a|a）>/i,$string,$matches...
没有解决我的问题, 去提问

悬赏问题

¥30 vmware exsi重置后登不上
¥15 易盾点选的cb参数怎么解啊
¥15 MATLAB运行显示错误，如何解决？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题
¥20 yolov5自定义Prune报错，如何解决？
¥15 电磁场的matlab仿真
¥15 mars2d在vue3中的引入问题
¥50 h5唤醒支付宝并跳转至向小荷包转账界面

PHP正则表达式 - 使用指定类从所有链接获取文本[重复]

1条回答 默认 最新

悬赏问题

1条回答默认最新