qq_41867864 2020-04-16 11:07 采纳率: 0%

已结题

scrapy和redis不能爬到数据数据【赏金可以提升】

分布式爬虫一直都是显示Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

github的原地址是https://github.com/CUHKSZ-TQL/WeiboSpider_SentimentAnalysis

配置环境之后对代码修改之后是

链接：https://pan.baidu.com/s/1jHbz7ak8VqO-MMHeGj9_UA

提取码：iecl

运行第三个程序的结果是：

= RESTART: C:\Users\ap645\Desktop\WeiboSpider_SentimentAnalysis-master\WeiboSpider\sina\spiders\weibo_spider.py

2020-04-16 11:04:10 [scrapy.utils.log] INFO: Scrapy 2.0.1 started (bot: sina)

2020-04-16 11:04:10 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 20.3.0, Python 3.8.1 (tags/v3.8.1:1b293b6, Dec 18 2019, 23:11:46) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1f 31 Mar 2020), cryptography 2.9, Platform Windows-10-10.0.18362-SP0

2020-04-16 11:04:10 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor

2020-04-16 11:04:10 [scrapy.crawler] INFO: Overridden settings:

{'BOT_NAME': 'sina',

'DOWNLOAD_DELAY': 2,

'DUPEFILTER_CLASS': 'scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter',

'NEWSPIDER_MODULE': 'sina.spiders',

'SCHEDULER': 'scrapy_redis_bloomfilter.scheduler.Scheduler',

'SPIDER_MODULES': ['sina.spiders']}

2020-04-16 11:04:10 [scrapy.extensions.telnet] INFO: Telnet Password: 3c9f648b6ca7a947

2020-04-16 11:04:10 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.corestats.CoreStats',

'scrapy.extensions.telnet.TelnetConsole',

'scrapy.extensions.logstats.LogStats']

2020-04-16 11:04:10 [weibo_spider] INFO: Reading start URLs from redis key 'weibo_spider:start_urls' (batch size: 16, encoding: utf-8

2020-04-16 11:04:12 [scrapy.middleware] INFO: Enabled downloader middlewares:

['sina.middlewares.RedirectMiddleware',

'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'sina.middlewares.CookieMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

2020-04-16 11:04:12 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

'scrapy.spidermiddlewares.referer.RefererMiddleware',

'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

'scrapy.spidermiddlewares.depth.DepthMiddleware']

2020-04-16 11:04:12 [scrapy.middleware] INFO: Enabled item pipelines:

['sina.pipelines.MongoDBPipeline']

2020-04-16 11:04:12 [scrapy.core.engine] INFO: Spider opened

2020-04-16 11:04:12 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2020-04-16 11:04:12 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023

2020-04-16 11:05:12 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
考古学家lx(李玺) 优质创作者: python技术领域 2020-04-16 19:39
关注
INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
挂机了，设置请求超时时间，请求间隔，重试次数，检查ua、代理

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python3 爬虫 Scrapy 与 Redis
2024-12-15 19:00

大秦重工的博客 Scrapy是一个分布式爬虫的框架，如果把它像普通的爬虫一样单机运行，它的优势将不会被体现出来...因此，要让Scrapy往分布式爬虫方向发展，就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。
Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis.zip
2023-12-30 10:35

毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫...
基于Flask框架的Scrapy-Redis房源数据采集与展示设计源码
2024-10-05 13:21

在分布式爬虫技术的支持下，Scrapy-Redis可以高效地采集贝壳网的新房、二手房和租房数据，同时利用Redis来实现高效的任务调度和数据去重，大大提升了系统的性能。数据采集之后，系统会将采集到的房源信息存储于...
Python基于Scrapy-Redis分布式爬虫设计毕业源码案例设计完整
2023-10-08 10:35

python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过它可以...
Scrapy-Redis分布式爬虫：Python大规模数据抓取的实现方案
2025-04-23 21:12

缑宇澄的博客通过分布式架构，不同节点可以同时对不同的URL进行抓取，充分利用多台机器的计算资源和网络带宽，实现大规模数据的高效采集。与传统单节点爬虫相比，分布式爬虫在处理海量数据时具有明显的性能优势，并且具备更好的...
Python基于Scrapy-Redis分布式爬虫设计
2023-11-04 15:39

python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过它可以...
Python基于Scrapy兼职招聘网站爬虫数据分析设计
2023-11-01 17:54

本项目爬虫端和网站后台采用Python语言开发，其中爬虫利用的是Scrapy框架可以轻松实现网站数据的抓取，抓取到的兼职信息直接保存到mysql数据库中，前端采用Vue开发，实现了前后端分离的模式，前端请求Django后端...
【源码】基于python+scrapy+redis实现主从式master-slave爬虫.zip
2024-09-03 22:25

基于Python、Scrapy和Redis实现的主从式master-slave爬虫架构，就是这一领域的创新实践。 Python语言因其简洁高效，成为了开发网络爬虫的首选语言。Python提供的丰富的第三方库，如Requests、BeautifulSoup、Scrapy...
毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis
2023-06-08 21:34

python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过它可以...
python爬虫基础知识原理及Scrapy框架以及scrapy-redis分布式策略入门知识.zip
2024-05-15 09:54

Scrapy 是一个快速且高级的 Python 爬虫框架，用于从网站上抓取结构化的数据。而 scrapy-redis 是一个基于 Scrapy 的分布式爬虫组件，它使用 Redis 数据库来存储爬虫的请求队列和去重指纹，以实现多个爬虫实例之间的...
没有解决我的问题, 去提问

scrapy和redis不能爬到数据数据 【赏金可以提升】

6条回答 默认 最新

scrapy和redis不能爬到数据数据【赏金可以提升】

6条回答默认最新