scrapy 爬取遇到问题Filtered duplicate

用scrapy请求站点 http://bigfile.co.kr 的时候，显示Filtered duplicate request:no more duplicates错误，然后就结束了，加上dont_filter=True，重新运行，结果一直死循环，无法结束，也不能爬到东西，有没有大神看一下

 name = 'WebSpider'
    start_urls = ['http://bigfile.co.kr']
    headers = {
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Connection": "keep-alive",
        'Referer': 'http://www.baidu.com/',
        "Upgrade-Insecure-Requests": 1,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
    }

    def start_requests(self):
        request = scrapy.Request(url=self.start_urls[0], headers=self.headers, callback=self.parse)
        request.meta['url'] = self.start_urls[0]
        yield request

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-11-15 03:07
关注
加下参数dont_filter=True

https://www.walkerfree.com/article/25/

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Scrapy 出现DEBUG:Filtered duplicate request
2020-01-06 16:55

sxf_0123的博客转载:... [scrapy] DEBUG:Filtered duplicate request:<GET:xxxx>-no more duplicates will be shown 不会显示更多重复项 scrapy自身有过滤重复请求在Request请求中添加...
关于[scrapy] DEBUG:Filtered duplicate request:
2018-05-13 20:25

Daniel_xl的博客 [scrapy] DEBUG:Filtered duplicate request:<GET:xxxx>-no more duplicates will be shown不会显示更多重复项,其实这个的问题是,CrawlSpider结合LinkExtractor\Rule,在提取链接与发链接的时候,出现了...
【爬虫】Scrapy爬取腾讯社招信息
2019-04-12 23:31

__盛夏光年__的博客 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛，可用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted 异步网络库来处理网络通讯，可以加快我们的下载速度，...
scrapy爬取大众点评并解析？？
2019-03-23 22:37

一只鸭鸭ya的博客目录爬取大众点评需求第一关：大众点评爬取遇到403 第二关：scrapy的信息传递第三关：DNS域名解析错误...第五关：中间件过滤信息问题：Filtered duplicate request或者是Filtered offsite request to 域名 ...
scrapy超详细教程(包含部署定时爬取以及js渲染等)
2024-05-28 20:23

编程之富的博客布隆过滤器的原理：其实它里面就是一个改良版的bitmap....因为redis太渺小，万一平常要爬取的数据非常的庞大，这时候默认的过滤器就不灵验了，所以此时需要一个特殊的过滤器。2、在scrapy的settings文件中要设置为。
基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录
2019-08-24 18:02

Jock2018的博客基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录1. 网页请求返回json数据的处理2. Scrapy的Request中回调函数间的信息交流3. MySQL报错：pymysql.err.InternalError: (1046, '')3.1 打印一下sql语句，同时放入...
Scrapy：Filtered duplicate request: - no more duplicat
2019-02-15 16:24

衣乌安、的博客 Scrapy默认有自己的去重策略，当你多次请求同一地址时就会触发，从而终止请求解决办法：请求时添加 dont_filter=True,取消过滤 yield scrapy.Request('https://www.zhipin.com/',callback=self.parse,dont_...
Scrapy分布式爬虫过滤问题：DEBUG: Filtered duplicate request----no more duplicates will be shown
2019-04-14 16:09

Felix-微信(Felixzfb)的博客 Scrapy分布式爬虫过滤问题分布式爬虫增加过滤规则...[scrapy_redis.dupefilter] DEBUG: Filtered duplicate request <GET http://yunqi.qq.com/bk/so2/n30p2> - no more duplicates will be shown (see DUPE...
Scrapy爬虫踩坑记录
2020-12-17 17:29

ㄏ、Forgetˊ的博客一、DEBUG: Filtered duplicate request: GET xxx - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates) 对网站全站爬取数据时，遇到了这个报错。 Scrapy会对reques
scrapy 爬虫过滤相同的url，Filtered duplicate request，dont_filter
2017-09-01 15:27

未完成的梦orz的博客 yield Request ( 'https://www.zhihu.com' , meta={ 'cookiejar' :response .meta[ 'cookiejar' ...scrapy默认过滤掉重复的之前爬过的url，在request参数中添加 dont_filter=True 设置不过滤url
没有解决我的问题, 去提问

scrapy 爬取遇到问题Filtered duplicate

1条回答 默认 最新

1条回答默认最新