php爬虫问题（目标网站刷新太慢，导致抓取不到）

由于应用限制，只能用php做接口。
功能：爬取目标网站的图片然后并下载到本地
问题：目标网站由于要js动态渲染页面，但是刷新的速度太慢导致php爬虫爬取不到图片。
目标网站截图：图片说明
PHP代码:

<?php
class download_image{
    //抓取图片的保存地址
    public $save_path;   
    //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片
    public $img_size=0; 
    //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取       
    public static $a_url_arr=array();

    /**
     * @param String $save_path    抓取图片的保存地址
     * @param Int    $img_size     
     */
    public function __construct($save_path,$img_size){
        $this->save_path=$save_path;
        $this->img_size=$img_size;
        if(!file_exists($save_path)){
            mkdir($save_path,0775);
        }
    }
    /**
     * 递归下载抓取首页及其子页面图片的方法  ( recursive 递归)
     * @param   String  $capture_url  用于抓取图片的网址
     */
    public function recursive_download_images($capture_url){
        if (!in_array($capture_url,self::$a_url_arr)){   //没抓取过
            self::$a_url_arr[]=$capture_url;   //计入静态数组
        } else {   //抓取过,直接退出函数
            return;
        }
        $this->download_current_page_images($capture_url);  //下载当前页面的所有图片
        //用@屏蔽掉因为抓取地址无法读取导致的warning错误
        $content=@file_get_contents($capture_url); 
        //匹配a标签href属性中?之前部分的正则
        $a_pattern = "|<a[^>]+href=['\" ]?([^ '\"?]+)['\" >]|U";   
        preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER);
        $tmp_arr=array();  //定义一个数组,用于存放当前循环下抓取图片的超链接地址
        foreach ($a_out as $k => $v) {
            /**
             * 去除超链接中的 空'','#','/'和重复值  
             * 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环
             * 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环,  
             * 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载)
             */
            if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) ) { 
                $tmp_arr[]=$v[1];
            }
        }
        foreach ($tmp_arr as $k => $v){ 
            //超链接路径地址
            if ( strpos($v, 'http://')!==false ){ //如果url包含http://,可以直接访问
                $a_url = $v;
            }else{   //否则证明是相对地址, 需要重新拼凑超链接的访问地址
                $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
                $a_url=$domain_url.$v;
            }
            $this->recursive_download_images($a_url);
        }
    }
    /**
     * 下载当前网页下的所有图片 
     * @param   String  $capture_url  用于抓取图片的网页地址
     * @return  Array   当前网页上所有图片img标签url地址的一个数组
     */
    public function download_current_page_images($capture_url){
        $content=@file_get_contents($capture_url);   //屏蔽warning错误
        //匹配img标签src属性中?之前部分的正则
        $img_pattern = "|<img[^>]+src=['\" ]?([^ '\"?]+)['\" >]|U";   
        preg_match_all($img_pattern, $content, $img_out, PREG_SET_ORDER);
        $photo_num = count($img_out);
        //匹配到的图片数量
        echo $capture_url . "共找到 " . $photo_num . " 张图片\n";
        foreach ($img_out as $k => $v){
            $this->save_one_img($capture_url,$v[1]);
        }
    }

    /**
     * 保存单个图片的方法 
     * @param String $capture_url   用于抓取图片的网页地址
     * @param String $img_url       需要保存的图片的url
     */
    public function save_one_img($capture_url,$img_url){
        //图片路径地址
        if ( strpos($img_url, 'http://')!==false ){ 
            // $img_url = $img_url;
        }else{   
            $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
            $img_url=$domain_url.$img_url;
        }           
        $pathinfo = pathinfo($img_url);    //获取图片路径信息        
        $pic_name=$pathinfo['basename'];   //获取图片的名字
        if (file_exists($this->save_path.$pic_name)){  //如果图片存在,证明已经被抓取过,退出函数
            echo $img_url.'该图片已经抓取过!'."\n"; 
            return;
        }                
        //将图片内容读入一个字符串
        $img_data = @file_get_contents($img_url);   //屏蔽掉因为图片地址无法读取导致的warning错误
        if ( strlen($img_data) > $this->img_size ){   //下载size比限制大的图片
            $img_size = file_put_contents($this->save_path . $pic_name, $img_data);
            if ($img_size){
                echo $img_url.'图片保存成功!'."\n";
            } else {
                echo $img_url.'图片保存失败!'."\n";
            }
        } else {
            echo $img_url.'图片读取失败!'."\n";
        } 
    } 
}
set_time_limit(120);     //设置脚本的最大执行时间  根据情况设置 
$download_img=new download_image('imgages/',0);   //实例化下载图片对象
//$download_img->recursive_download_images('http://www.oschina.net/');      //递归抓取图片方法
//$download_img->download_current_page_images($_POST['capture_url']);     //只抓取当前页面图片方法
$download_img->download_current_page_images('http://127.0.0.1:808/yoyo/word/php/1.html');     //只抓取当前页面图片方法
?>

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2020-01-11 11:45
关注
https://www.php.cn/php-ask-431347.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

php vue seo,VUE项目SEO问题的解决
2021-04-12 22:15

杨衍的博客网络爬虫在爬取网页内容的时候，需要分析页面内容，主要有以下几点：从meta标签中读取keywords、description的内容。根据语义化的html的标签爬取和分析内容。一个整体都是用div标签的网站和正确使用了html5标...
1-认识网络爬虫
2024-07-04 22:58

qwy715229258163的博客网络爬虫（Web Crawler）又称网络蜘蛛、网络机器人，它是一种按照一定规则，自动浏览万维网的程序或脚本。通俗地讲，网络爬虫就是一个模拟真人浏览万维网行为的程序，这个程序可以代替真人自动请求万维网，并...
Python网络爬虫技术
2025-04-23 14:31

卢妍-的博客网络爬虫（Web Crawler）又称网络蜘蛛、网络机器人，它是一种按照一定规则，自动浏览万维网的程序或脚本。通俗地讲，网络爬虫就是一个模拟真人浏览万维网行为的程序，这个程序可以代替真人自动请求万维网，并接收从...
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客大家好，我是辣条。...网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是客户端(浏
Scrapy 案例一：通过 API 抓取天气预报数据
2022-09-13 03:56

棒棒编程修炼场的博客 Scrapy 案例：通过 API 抓取天气预报数据
Python爬虫：从基础到进阶
2023-11-08 13:17

JinDao.的博客对第一次爬取数据得到的链接进行二次处理meta：添加字典属性，将指定的字典发送给二级爬虫方法的response对象里name = ''......yield item携带cookies请求重写start_requests方法, 构造请求携带cookiename = ''url =...
网络爬虫详解
2021-07-15 15:53

顺其自然~的博客网络爬虫（web crawler，又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟...
基于python实现的vip电影爬虫
2024-11-22 16:59

Python_trys的博客在**（三）**中，我们学会了如何下载m3u8格式的视频，但并非所有的m3u8都是那么的纯洁，有些网站非常的狗，对文件设置了加密（我只见过AES加密的，but据说有其他加密模式...大电影用的比较少，下载也不慢，不妨一试。
网易云解析接口PHP源码,网易云音乐Web端的接口分析
2021-04-10 12:35

weixin_39941847的博客网易云音乐Web端的接口分析个人博客同步更新，阅读体验也会更好一点，欢迎访问先看看云村有哪些榜单：飙升榜的访问地址:...好的，我查看一下源代码这样没有问题吧，有问题，错，要看框架源代码。。。不清楚网易...
PHP CGI 进程占用CPU过高导致CPU使用达到100%的另类原因
2019-09-21 12:36

asevb02442的博客由于使用的华为云的CDN加速，结果发现我的阿里云服务器突然卡顿，网页打开极慢。登陆华为云CDN管理后台发现最高带宽占用30M，流量短时间内达到10GB以上，这么大的流量我的服务器肯定扛不住啊。于是还跟华为云进行了...
没有解决我的问题, 去提问

php爬虫问题（目标网站刷新太慢，导致抓取不到）

1条回答 默认 最新

1条回答默认最新