scrapy 爬取遇到问题Filtered duplicate

用scrapy请求站点 http://bigfile.co.kr 的时候，显示Filtered duplicate request:no more duplicates错误，然后就结束了，加上dont_filter=True，重新运行，结果一直死循环，无法结束，也不能爬到东西，有没有大神看一下

 name = 'WebSpider'
    start_urls = ['http://bigfile.co.kr']
    headers = {
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Connection": "keep-alive",
        'Referer': 'http://www.baidu.com/',
        "Upgrade-Insecure-Requests": 1,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
    }

    def start_requests(self):
        request = scrapy.Request(url=self.start_urls[0], headers=self.headers, callback=self.parse)
        request.meta['url'] = self.start_urls[0]
        yield request

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-11-15 03:07
关注
加下参数dont_filter=True

https://www.walkerfree.com/article/25/

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
scrapy 爬取图片报错 error processing python
2021-12-20 01:08

回答 1 已采纳 http: 去那里啦?
Scrapy 出现DEBUG:Filtered duplicate request
2020-01-06 16:55

sxf_0123的博客转载:... [scrapy] DEBUG:Filtered duplicate request:<GET:xxxx>-no more duplicates will be shown 不会显示更多重复项 scrapy自身有过滤重复请求在Request请求中添加...
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
scrapy爬取知乎首页乱码
2017-12-01 03:21

回答 2 已采纳 ```python HEADERS = { 'Host': 'www.zhihu.com', 'Accept': 'text/html,application/xhtml+xml
scrapy 爬取商品视频url,详情失败 python
2022-02-17 10:28

回答 3 已采纳 js加载的，先打印看下获取的整个网页。我试了下，在下图这个位置可以找到视频链接，可以用正则或者别的方法取出来
关于[scrapy] DEBUG:Filtered duplicate request:
2018-05-13 20:25

Daniel_xl的博客 [scrapy] DEBUG:Filtered duplicate request:<GET:xxxx>-no more duplicates will be shown不会显示更多重复项,其实这个的问题是,CrawlSpider结合LinkExtractor\Rule,在提取链接与发链接的时候,出现了...
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 23:12

回答 2 已采纳这个是百度反爬虫导致的，
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
scrapy爬取大众点评并解析？？
2019-03-23 22:37

一只鸭鸭ya的博客目录爬取大众点评需求第一关：大众点评爬取遇到403 第二关：scrapy的信息传递第三关：DNS域名解析错误...第五关：中间件过滤信息问题：Filtered duplicate request或者是Filtered offsite request to 域名 ...
利用scrapy如何爬取图表中的数据 python 其他有问必答
2021-07-07 23:48

回答 1 已采纳 scrapy得出的响应内容是在network的doc里面，如图如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
【爬虫】Scrapy爬取腾讯社招信息
2019-04-12 23:31

__盛夏光年__的博客 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛，可用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted 异步网络库来处理网络通讯，可以加快我们的下载速度，...
使用Scrapy来爬取自己的CSDN文章 (2)
2015-05-16 15:07

写了程序换酒钱的博客前言前面讲到只是爬取了title和url，那么怎么爬取文章,其实原理是一样的。过程保存文章内容的Item我们在item.py中添加一项，如下：class CsdnArticleItem(Item): title = Field() article = Field() pass我们保存...
没有解决我的问题, 去提问

悬赏问题

¥15 Python爬取指定微博话题下的内容，保存为txt
¥15 vue2登录调用后端接口如何实现
¥65 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥15 latex怎么处理论文引理引用参考文献
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？