UPDATE DEFAULT 2022-06-20 12:39 采纳率: 60%
浏览 13
已结题

scrapy过滤不起作用

# -*- coding: utf-8 -*-
import scrapy
import re
import os
import json
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy.utils.project import get_project_settings

class HuanqiuSpider(CrawlSpider):
    name = 'huanqiu'  # 爬虫名
    allowed_domains = ['tech.huanqiu.com']
    start_urls = ['https://tech.huanqiu.com/internet']
    
    rules = (
        Rule(LinkExtractor(allow=(r"article", )), callback='parse_item', follow=False),
    )
    
    def parse_item(self, response):
        title = response.xpath("//div[@class='t-container-title']/h3/text()").extract_first()
        url = response.url
        print(title, url)
        p_list = response.xpath('//article/section/p')
        if p_list:
            content = '\n'.join([p.xpath('.//text()').extract_first() for p in p_list])        
            #print(content)

img


爬取结果最后两个不理解,为什么allowed_domains和rules过滤不起作用

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 6月28日
    • 修改了问题 6月21日
    • 创建了问题 6月20日

    悬赏问题

    • ¥15 关于链式代理v*n的配置
    • ¥15 python怎么在已有视频文件后添加新帧
    • ¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
    • ¥15 fluent里模拟降膜反应的UDF编写
    • ¥15 MYSQL 多表拼接link
    • ¥15 关于某款2.13寸墨水屏的问题
    • ¥15 obsidian的中文层级自动编号
    • ¥15 同一个网口一个电脑连接有网,另一个电脑连接没网
    • ¥15 神经网络模型一直不能上GPU
    • ¥15 pyqt怎么把滑块和输入框相互绑定,求解决!