用webmagic爬取网页时，为什么数据很少，且不稳定

首先我爬取网站时，要进入多个网页爬取，用了一个循环自动进入下一页，但是每次最多进入到第三页就自动停止了。有时候一页停止了。
其次就是进入到了网页，里面的信息也没有爬完，一页最多就爬了三分之一的信息，然后切换到了第二页，不知道为什么啊

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
坚持不懈的大白前端领域优质创作者 2023-01-11 16:37
关注
什么网站，分享出来呗！有的网站为了防止被爬，是做了一些反爬的措施的

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

webmagic如何批量爬取很多网站??(希望大神能够看问题详情在回答,谢谢各位大神了)
2016-05-02 13:36

回答 3 已采纳可以通过配置文件解决
请问这个连接怎么爬取分页数据，找不到连接
2016-05-06 02:15

回答 1 已采纳从请求中可以看到这个参数bulletininfotable_p=1就是分页的
#爬虫webmagic#使用PriorityBlockingQueue出现排序失灵，如何解决？ java
2023-02-02 11:17

回答 2 已采纳 PriorityBlockingQueue是一个无界的、线程安全的、可排序的队列，它使用了优先级队列的内部实现。在队列中添加元素时，会根据元素的优先级进行排序，使得在出队的时候，优先级最高的元素先出队
Java爬虫——WebMagic多线程，多深度数据爬取整合
2021-07-06 10:55

亿只王菜菜的博客此文章主要解决以下应用场景，在使用webmagic框架时，会存在多线程爬取数据，这就导致了在不同页面中爬取到的数据无法整合为一条，因为你在爬取A页面的时候，你其实也在爬取通过A页面点进去的B页面，但是这其实是一...
如何使用java webmagic获取淘宝商品的淘宝价 java
2018-03-22 10:33

回答 1 已采纳 https://blog.csdn.net/xu470438000/article/details/42391929
Java 爬虫工具推荐超级好用webmagic 其他爬虫
2022-11-15 11:05

回答 2 已采纳感谢你来普及爬虫知识，建议将知识写成博客，再共享给大家哦。
java网页抓取其中2个字符串 java
2012-06-27 21:13

回答 1 已采纳有空研究研究XPath,你能很轻松的取到页面上所有的信息。 [code="java"]private static void getTrackInfo(String html) throws E
Java爬虫爬取京东商城
2022-02-24 00:03

ric.的博客旨在通过使用java爬虫，提取网络中的各种商品信息，并收集的商品信息建立统一数据模型存储数据，通过数据模型描述商品的基本属性。如spu，sku，商品描述，价格等信息，同时需要剔除非必要信息，做到精准分析。根据所...
Spring Boot启动报错ERROR 3644 --- [ main] o.s.b.d.LoggingFailureAnalysisReporter : intellij-idea java java-ee maven spring
2019-07-19 11:36

回答 3 已采纳缺少 springBean `com.meituan.hotel.Dao.HotelInfoDao` 1、spring扫描位置不正确 2、没有加 @Component 或其他类似注解
如何从多个查询中获取多个结果 mysql php
2014-04-01 15:50

回答 5 已采纳 It looks like you are using PDO, so you could do something like: $first_set = $stmt->fetchAll(
爬虫抓取百度链接返回数量不够 java
2016-12-08 14:00

回答 1 已采纳 http://ask.seowhy.com/question/16013
我用Java+Redis+ES+Kibana技术对数百万知乎用户进行了数据分析，得到了这些...
2021-06-01 21:50

公众号:方志朋的博客点击上方蓝色“方志朋”，选择“设为星标”回复“666”获取独家整理的学习资料！作者：_artoria_http://tinyurl.com/quscxyl1. 前言我是一个真正的知乎小白...
全网最全网络数据采集(爬虫)指南
2019-03-07 15:05

weixin_34414650的博客爬虫的来由，应用场景，数据价值爬虫技术开发语言和开发框架选型爬虫国内外产品竞品分析爬虫技术应用延伸拓展分布式企业级爬虫实践首先本chat旨在让大家对爬虫形成，价值，实现，周边等有一个全面的认识，而...
全网最全网络数据采集(爬虫)指南
2019-03-07 15:05

weixin_34144450的博客爬虫的来由，应用场景，数据价值爬虫技术开发语言和开发框架选型爬虫国内外产品竞品分析爬虫技术应用延伸拓展分布式企业级爬虫实践首先本chat旨在让大家对爬虫形成，价值，实现，周边等有一个全面的认识，而...
主流爬虫框架的基本介绍
2021-07-05 10:39

steamone的博客 Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试. Scrapy吸引人的地方在于它是一个框架，任何人都...
33款可用来抓数据的开源爬虫软件工具
2018-11-25 08:40

爱编程_的博客要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是...
基础网络爬虫（Web crawler）相关技术浅析
2022-04-06 10:53

Starzkg的博客得到一个网络请求的所有数据才能知道如何编写爬虫浏览器开发者工具浏览器插件 HackBar 网络抓包工具 Postman Fiddler BurpSuite Wireshark … 请求认证拷贝认证直接拷贝认证相关的信息到爬虫程序中，以达到认证...
eclipse+springboot开发的爬虫项目
2020-07-04 19:30

NoplaceTogo的博客几天前收到公司邮件，说是要完成一个入职项目，要求是在eclipse上开发一个springboot项目，首先我算是半个小白，其次eclipse用的比较少，所以光是环境配置就让我叹了口气。 ...
【爬虫】手把手教你写网络爬虫（3）
2017-06-26 19:48

JDJRdata的博客细心的读者也许会有疑问，为什么不学出身名门的Apache顶级项目Nutch，或者人气飙升的国内大神开发的Pyspider等框架呢？原因很简单，我们来看一下主流爬虫框架在GitHub上的活跃度： Project ...
研发人员的刚需，那些必须掌握的技术和解决方案
2019-12-01 11:00

小雷FansUnion的博客做投资，有个思路是：抓住不变量。无论世界形势怎么变化，时代怎么发展，创新永远是最难跟踪的，但那些不变的确实非常确定的。茅台酒的商业模式基本不变，研发投入是固定的，很难因为时代发展，突然被人颠覆。 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月25日

悬赏问题

¥15 Qt下使用tcp获取数据的详细操作
¥15 idea右下角设置编码是灰色的
¥15 全志H618ROM新增分区
¥15 在grasshopper里DrawViewportWires更改预览后，禁用电池仍然显示
¥15 NAO机器人的录音程序保存问题
¥15 C#读写EXCEL文件，不同编译
¥15 MapReduce结果输出到HBase，一直连接不上MySQL
¥15 扩散模型sd.webui使用时报错“Nonetype”
¥15 stm32流水灯＋呼吸灯＋外部中断按键
¥15 将二维数组，按照假设的规定，如0/1/0 == "4"，把对应列位置写成一个字符并打印输出该字符

用webmagic爬取网页时，为什么数据很少，且不稳定

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新