scrapy过滤不起作用

# -*- coding: utf-8 -*-
import scrapy
import re
import os
import json
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy.utils.project import get_project_settings

class HuanqiuSpider(CrawlSpider):
    name = 'huanqiu'  # 爬虫名
    allowed_domains = ['tech.huanqiu.com']
    start_urls = ['https://tech.huanqiu.com/internet']
    
    rules = (
        Rule(LinkExtractor(allow=(r"article", )), callback='parse_item', follow=False),
    )
    
    def parse_item(self, response):
        title = response.xpath("//div[@class='t-container-title']/h3/text()").extract_first()
        url = response.url
        print(title, url)
        p_list = response.xpath('//article/section/p')
        if p_list:
            content = '\n'.join([p.xpath('.//text()').extract_first() for p in p_list])        
            #print(content)

爬取结果最后两个不理解，为什么allowed_domains和rules过滤不起作用

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
scrapy 中xpath路径获取不到内容 chrome python 前端有问必答
2022-09-05 12:07

回答 2 已采纳 a标签不仅仅含有文本，那么没有其它节点可以定位了吗
scrapy 教程
2022-07-11 07:38

「已注销」的博客 ------------------------------------------------------------------------------------------ scrapy中文文档和 scrapy 英文文档参照看。因为中文文档比较老，英文文档是最新的。 scrapy 英文文档：...
scrapy是不没安装好呢？ python 爬虫
2022-05-10 11:28

回答 2 已采纳你确认一下是不是调用命令还需要参数啊
scrapy爬虫不自动翻页问题爬虫
2021-11-14 09:17

回答 2 已采纳 scrapy框架里面 start_urls里面装的是网页列表，你在上面贴的代码里只放了一个url，所以他只会一直爬这一个网页。用for循环构造出url，然后添加进statrt_urls，然后再运行就解
scrapy项目中找不到xpath属性爬虫
2023-03-13 19:43

回答 2 已采纳节点是none吧，你看你解析的节点，存不存在？不存在他也会报这个错误
一、scrapy爬虫框架——概念作用和工作流程 & scrapy的入门使用
2020-07-11 17:56

小小白学计算机的博客了解 scrapy框架的作用掌握 scrapy框架的运行流程掌握 scrapy中每个模块的作用 1. scrapy的概念 Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。 Scrapy ...
在scrapy中能不能进行多次post请求？ python
2020-12-13 19:29

回答 1 已采纳通过scrapy 可以多次发送 post 请求的，在start_requests方法中通过 yield 去调用另一个方法即可
scrapy 找不到txt文件是为什么？ python
2021-12-14 09:34

回答 1 已采纳 with open(r'ccgpwin_2021\publishTime','r') as f: preservationTime = f.readline() 有帮助请采纳
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
Scrapy Web爬虫框架 v1.2.0
2020-12-04 13:21

Scrapy是一个强大的网络爬虫框架，专为Python编程语言设计，其版本v1.2.0带来了许多实用的功能和优化。Scrapy的核心设计理念是让用户能够快速地构建自定义的网络爬虫，通过简单的配置和定制就能高效地抓取网页内容。...
scrapy genspider，创建文件失败 python
2022-05-30 21:19

回答 1 已采纳编码错了，不能用gbk,因为你这儿有二进制数据，你的用utf8
Scrapy Web爬虫框架 v2.0.1
2020-08-18 07:56

Scrapy是一个强大的Web爬虫框架，专为Python编程语言设计，其版本v2.0.1带来了更多优化和改进。这个框架充分利用了Twisted异步网络库，使得爬虫在处理大量网页时能够高效地并发执行，提高了数据抓取的速度和效率。 ...
Python爬虫—scrapy框架
2022-08-31 15:41

白天数糖晚上数羊的博客 Python爬虫—scrapy框架
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月20日

悬赏问题

¥15 关于链式代理v*n的配置
¥15 python怎么在已有视频文件后添加新帧
¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
¥15 fluent里模拟降膜反应的UDF编写
¥15 MYSQL 多表拼接link
¥15 关于某款2.13寸墨水屏的问题
¥15 obsidian的中文层级自动编号
¥15 同一个网口一个电脑连接有网，另一个电脑连接没网
¥15 神经网络模型一直不能上GPU
¥15 pyqt怎么把滑块和输入框相互绑定，求解决！

scrapy过滤不起作用

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新