正则表达式不返回任何与所用表达式无关的匹配

Ok here is the issue, I have been trying to build cURL script to check for dead links in a database. The links all look something like this http://www.ltblekinge.se/download/18.9c16a31109c04a3e880003750. The issue that I have is that no mater what regex "pattern" I use the $url_list remains empty. Any help would be appreciated!

Problematic part of Code

<?php
/*Config*/
/*** mysql hostname ***/
$hostname = 'localhost';

/*** mysql username ***/
$username = 'root';

/*** mysql password ***/
$password = 'root';
/*curl setup of varibles*/
$excluded_domains = array(  
'localhost', 'rollnstroll.se');
$max_connections = 10;
$url_list = array();  
$working_urls = array();  
$dead_urls = array();  
$not_found_urls = array();  
$active = null;



try {
$dbh = new PDO("mysql:host=$hostname;dbname=blankett", $username, $password);
$dbh->exec('SET CHARACTER SET utf8');

$dbh->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);


/*** fetch into an PDOStatement object ***/
$sql = "SELECT * FROM `forms2`";

$stmt = $dbh->prepare("SELECT * FROM forms2");
$stmt->execute();

while ($d = $stmt->fetchAll()) {

    if (preg_match_all('/((([A-Za-z]{3,9}:(?:\/\/)?)(?:[-;:&=\+\$,\w]+@)?[A-Za-z0-9.-]+|(?:www.|[-;:&=\+\$,\w]+@)[A-Za-z0-9.-]+)((?:\/[\+~%\/.\w-_]*)?\??(?:[-\+=&;%@.\w_]*)#?(?:[.\!\/\\w]*))?)/', $d['link_forms'], $matches)) {

/***error code***/
if (preg_last_error() == PREG_NO_ERROR) {
print 'There is no error.';
}
else if (preg_last_error() == PREG_INTERNAL_ERROR) {
print 'There is an internal error!';
}
else if (preg_last_error() == PREG_BACKTRACK_LIMIT_ERROR) {
print 'Backtrack limit was exhausted!';
}
else if (preg_last_error() == PREG_RECURSION_LIMIT_ERROR) {
print 'Recursion limit was exhausted!';
}
else if (preg_last_error() == PREG_BAD_UTF8_ERROR) {
print 'Bad UTF8 error!';
}
else if (preg_last_error() == PREG_BAD_UTF8_ERROR) {
print 'Bad UTF8 offset error!';
}

    foreach ($matches[1] as $url) { 



        // exclude some domains  
        $tmp = parse_url($url);  
        if (in_array($tmp['host'], $excluded_domains)) {  
            continue;  
        }
        // store the url  
        $url_list []= $url; 
    }
   }
}

// remove duplicates  
$url_list = array_values(array_unique($url_list));

if (!$url_list) {  
die('No URL to check');  
}  


}
catch(PDOException $e)
{
echo $e->getMessage();
}

DB Structure

1 id    int(10) No  None    AUTO_INCREMENT
2 master_id     int(10) No  None
3   name_form   varchar(500) latin1_swedish_ci No   None
4   link_form   varchar(500)    latin1_swedish_ci No    None
5   date_added  timestamp   No  CURRENT_TIMESTAMP

Question Why is $url_listemtpy?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

dongqiu3709 2013-05-07 23:09

关注

This works for me:

$url="http://www.ltblekinge.se/download/18.9c16a31109c04a3e880003750 http://one.com www.two.com http://yourad.io";

preg_match_all('/((([A-Za-z]{3,9}:(?:\/\/)?)(?:[-;:&=\+\$,\w]+@)?[A-Za-z0-9.-]+|(?:www.|[-;:&=\+\$,\w]+@)[A-Za-z0-9.-]+)((?:\/[\+~%\/.\w-_]*)?\??(?:[-\+=&;%@.\w_]*)#?(?:[.\!\/\\w]*))?)/', $url, $matches);

print_r($matches[1]);

output:

Array
(
    [0] => http://www.ltblekinge.se/download/18.9c16a31109c04a3e880003750
    [1] => http://one.com
    [2] => www.two.com
    [3] => http://yourad.io
)

Check the contents of your $d['link_forms']

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

正则表达式匹配不包含某个字符串的字符串 python 正则表达式
2021-03-07 09:46

回答 2 已采纳。。。 import re l = [] res = re.findall('ABC.*?BCD', r'ABC/dABC/213BCD/sfoajs/ABC/dddd/BCD') fo
正则表达式不返回任何与所用表达式无关的匹配 mysql php
2013-05-07 22:44

回答 1 已采纳 This works for me: $url="http://www.ltblekinge.se/download/18.9c16a31109c04a3e880003750 http://on
正则表达式 匹配正负整数和正负小数或者空有问必答正则表达式
2021-08-25 15:28

回答 6 已采纳已私聊解决
【Python笔记】正则表达式基础和应用
2021-09-16 18:31

阳光快乐普信男的博客正则，就是正则表达式，英文是 Regular Expression，简称 RE。正则其实就是一种描述文本内容组成规律的表示方式。在编程语言中，正则常常用来简化文本处理的逻辑。在 Linux 命令中，它也可以帮助我们轻松地查找或...
正则表达式当不符合条件则全部清空 css html5 jquery 正则表达式
2020-11-04 14:42

回答 1 已采纳 onkeyup="value=/^\d+\.?\d{0,2}$/.test(value)?value:''"
正则表达式嵌套匹配替换问题 java 正则表达式
2022-12-19 16:29

回答 8 已采纳 正则表达式改为 \$\{\s*if([\s\S]*?)\} *号在正则表达式中是贪婪匹配，如果想非贪婪匹配，要配合?问号一起使用。具体来说，在你的例子中，正则表达式 ${\s*if([\s\S]*)
C#正则表达式查找非纯数字的字符 c# 正则表达式
2022-04-27 01:53

回答 6 已采纳 (([a-zA-Z_])([a-zA-Z0-9_])+)|(([0-9])([a-zA-Z_])+)
数据结构与算法代码实战讲解之：字符串与正则表达式
2023-09-24 02:02

禅与计算机程序设计艺术的博客阅读本文不需要任何编程经验。字符串匹配：在一个主串(string)中查找一个模式串(pattern)，或者说判断一个字符串是否是另一个字符串的子序列。换句话说，就是寻找在主串中首次出现的某个模式串，或者说找到使模式串...
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
使用java正则表达式匹配日期 java 正则表达式
2020-01-31 15:18

回答 1 已采纳 ``` ^\d{4}-0*((1|3|5|7|8|10|12)-0*([1-9]|[1-2]\d|3[0-1])|(4|6|9|11)-0*([1-9]|[1-2]\d|30)|2-0*([1-
正则表达式不包含特定字符串？正则表达式
2018-11-17 12:31

回答 2 已采纳 ``` ^((?!test)[A-Za-z])*$ ```
JAVA 正则表达式 （超详细）
2017-07-07 18:26

大数据开发的博客在Sun的Java JDK 1.40版本中，Java自带了支持...正则表达式是个极端强大工具，而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里，正则表达式几乎没有什么限制，可肯定的是，它应用非常之广泛。
Drools 正则表达式匹配不准 java 正则表达式
2022-08-23 11:07

回答 1 已采纳你显示的加上^或者*号用来区分是否必须从头开始匹配
正则表达式心中有，还愁爬虫之路不好走？
2020-05-08 13:08

荣仔！最靓的仔！的博客爬虫路漫远兮， python求索叹奇。一文看尽正则，嘴扬心笑生焉。 正则表达式入...
5.打造高效正则表达式
2017-01-18 15:57

lszbd的博客打造高效正则表达式性能和质量指标独立测试次数 : 例如 smarty =~ marty, 会独立测试 6 次 m-s、m-m、a-a、r-r、t-t、y-y 回溯次数准确性多选时将优先匹配率高的表达式放在前面, 注意不是匹配范围限制贪婪匹配...
没有解决我的问题, 去提问

悬赏问题

¥15 求解 yolo算法问题
¥15 虚拟机打包apk出现错误
¥30 最小化遗憾贪心算法上界
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 逻辑谓词和消解原理的运用
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。

码龄粉丝数原力等级 --

正则表达式不返回任何与所用表达式无关的匹配

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

正则表达式不返回任何与所用表达式无关的匹配

1条回答 默认 最新

悬赏问题

1条回答默认最新