爬虫抓取百度链接返回数量不够

爬虫初学者一枚，用java的webmagic框架抓取百度搜索结果，利用servlet传要搜索的关键字，做好了解析和相关的流程调度工作。
现在要爬取百度前10页返回的信息，每页有10条，期望返回100条信息，但是每次只返回90条左右，不知道为什么会有链接丢失。望大神解答，关键代码如下：

  public void processWithException(Page page) throws MalformedURLException {
        Html html = page.getHtml();

        if(page.getRequest().getUrl().endsWith("&pn=0&ie=utf8")){
            name = (String)page.getRequest().getExtra("name");
            List<String> pag = html.xpath("//div[@id='page']/a/@href").all();
            if(html.xpath("//div[@id='page']/a/@href").toString()!=null){
                if(html.xpath("//div[@id='page']/a/@href").all().size()>=5){
                    for(int i=0;i<9;i++){
                        String pagination = pag.get(i);
                        page.addTargetRequest(pagination);
                    }
                }
                else {
                    for(int i=0;i<html.xpath("//div[@id='page']/a/@href").all().size();i++){
                        String pagination = pag.get(i);
                        page.addTargetRequest(pagination);
                    }
                }
            }
            String eqid = StringUtils.substringBetween(page.getHtml().toString(),"bds.comm.eqid = \"","\";");
            List<String> url = html.xpath("//div[@class='c-container']/h3/a/@href").all();
            for(int i=0;i<url.size();i++){
                String url_temp = url.get(i).replace("http","https")+"&wd=&eqid="+eqid;
                page.addTargetRequest(url_temp);
            }
        }
        else if(page.getRequest().getUrl().startsWith("http://www.baidu.com/s?wd=")){
            String eqid = StringUtils.substringBetween(page.getHtml().toString(),"bds.comm.eqid = \"","\";");
            List<String> url = html.xpath("//div[@class='c-container']/h3/a/@href").all();
            for(int i=0;i<url.size();i++){
                String url_temp = url.get(i).replace("http","https")+"&wd=&eqid="+eqid;
                page.addTargetRequest(url_temp);
            }
        }

        else if(page.getRequest().getUrl().startsWith("https://www.baidu.com/link")){
            String url_real = StringUtils.substringBetween(page.getHtml().toString(),"URL=\'","\'");
            page.addTargetRequest(url_real);

        }
        else if(!page.getRequest().getUrl().startsWith("http://www.baidu.com/s?wd=")&&
                !page.getRequest().getUrl().startsWith("https://www.baidu.com/link")){
            Baidu_FilterUtils baiduFilterUtils = new Baidu_FilterUtils();
            baiduFilterUtils.BaiduPassKeyWord(page,name,programList);
            baiduFilterUtils.BaiduContainWebsites(page,name,programList_websites);
            baiduFilterUtils.BaiduContainDownload(page,name,programList_download);
            baiduFilterUtils.BaiduContainsPass(page,name,programList_pass);
        }
    }

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-12-08 15:54
关注
http://ask.seowhy.com/question/16013

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Java抓取百度图片
2020-11-29 16:23

在本文中，我们将深入探讨如何使用Java编程语言和Spring Boot框架来实现百度图片的抓取与下载功能。首先，我们需要了解几个关键的概念和技术。 **Java** 是一种广泛使用的面向对象的编程语言，它以其跨平台的特性而...
Java 爬虫
2020-09-29 23:29

chy-x的博客 Web Magic 封装了 SpiderMonitor、SpiderStatusMXBean 用于监控爬虫状态//爬虫名称，即爬虫的uuid，唯一标识一个爬虫//待爬取的url数量//启动爬虫，实质是调用 spider.start()//终止爬虫，实质是调用 spider.stop()...
题解 | #nginx日志分析5-统计爬虫抓取404的次数#
2024-05-24 15:02

愤怒的小青春的博客目前很想找一份自动化/测开的工作，自己题解 | #统计复旦用户8月练题情况# select A.device_id,A.university, count(A.device 题解 | #nginx日志分析5-统计爬虫抓取404的次数# #!/bin/bashgrep "Baiduspider" ...
java+HttpClients实现百度图片批量爬取
2021-04-25 23:12

谨衡的博客图片数量：我们在之前的分析中，看见一个url请求返回了30张图片的数据，所以我们查看url中有没有数字“30”。我们看见所有url中都有“rn=30”，我们可以推断，rn表示图片的数量。链接变化规律：我们对比不同url，...
java 爬取百度云盘,python爬虫爬取百度网盘-怎么做一个百度网盘搜索引擎
2021-03-24 11:23

lstay的博客因为要做去转盘网，所以一定要爬取网盘资源，本来想自己写一个爬虫挺不容易的，不想分享出来，但最后还是决定了拿给大家一起看吧，毕竟有交流才有进步，有兴趣的朋友也可以看看我写的其他日志或者关注我，会发现去...
【Java-Crawler】一文学会使用WebMagic爬虫框架
2023-05-23 22:23

假正经的小柴的博客爬虫主要分为采集、处理、存储三个部分。在学 WebMagic 框架之前，需要了解 HttpClient、Jsoup（Java HTML Parse）库，因为 WebMagic 框架内部运用了他们，在你出现问题看源码去查错时，如果不知道 HttpClient、...
探索 Java 网络爬虫：Jsoup、HtmlUnit 与 WebMagic 的比较分析
2024-04-08 14:34

=蜗牛=的博客对于 Java 开发者而言，掌握高效的网页抓取技术是提升数据处理能力的关键。本文将深入探讨三款广受欢迎的 Java 网页抓取工具：Jsoup、HtmlUnit 和 WebMagic，分析它们的功能特点、优势以及适用场景，以助开发者选择...
java爬虫课程_Java课程设计之——爬虫篇
2021-02-27 08:29

深层动力的博客主要使用的技术HttplcientJsoup多线程dao模式网络爬虫简介网络爬虫(又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。...
2021年Java爬虫技术教程(一小时实现)
2021-03-14 21:06

KrlyKuzma的博客 Java爬虫开发前言 python优点： 1.各种爬虫框架，方便高效的下载网页; 2.多线程、进程模型成熟稳定，爬虫是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待。多线程或进程会更优化程序...
python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...
2020-12-09 10:28

weixin_39972567的博客原标题：使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号不知道大家过年都是怎么过的，反正栏主是在家睡了一天，醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码，想起之前练手的时候写过一个抓取百度贴吧...
没有解决我的问题, 去提问

爬虫抓取百度链接返回数量不够

1条回答 默认 最新

1条回答默认最新