scrapy引擎为什么没有开启spider

spider代码如下

import scrapy,re
from ..items import LianjiaItem


class LjSpider(scrapy.Spider):
    name = 'lj'
    allowed_domains = ['lianjia.com/city/']
    start_urls = ['https://www.lianjia.com/city/']

    def parse(self, response):
        city_list = response.css('.city_list_ul li .city_list ')
        for city in city_list:
            city_name = city.css('li a ::text').get()
            if city_name == '西安':
                city_url = city.css('li a ::attr(href)').get()
                item = LianjiaItem(city=city_name)
                print(city_name,city_url)
                yield scrapy.Request(city_url + 'zufang/rs/',callback=self.parse_regin,meta={'item':item})

    def parse_regin(self, response):
        regin_list = response.css('.filter__item--level2  ')
        for regin in regin_list:
            regin_name = regin.css('a ::attr(href)').get()
            if regin_name == '雁塔':
                regin_url = regin.css('a ::text').get()
                item = LianjiaItem(regin=regin_name)
                yield scrapy.Request(response.urljion(regin_url),callback=self.page_url, meta={'item':item})#此处网站有变化,item

    def page_url(self, response):
        page_list = response.css('ul[style="display:hidden"] a ::attr(href)').getall()
        for page_url in page_list:
            if page_url:
                yield scrapy.Request(response.urljion(page_url),callback=self.parse_house, meta={'item':response.meta.get('item')})

    def parse_house(self, response):
        url_list = response.css('.content__list--item--main p a ::attr(href)').getall()
        for url in url_list:
            url = re.search(r'/zufang/\.+\.html',url)
            house_url = "xa.lianjia.com" + url #此处网站有变化
            yield scrapy.Request(house_url,callback=self.parse_detail,meta={'item':response.meta.get('item')})

    def parse_detail(self, response):
        title = response.css('.content__title ::text').get()
        prices = response.css('.content__aside--title::text').getall()
        price = ''.join(prices).strip()
        area = response.css('.content__aside__list li:nth-child(2) ::text').getall()[2]
        fl = response.css('.content__article__info2 li[class$="line"] ::text').getall()
        fl =  ''.join(fl).strip()
        item = LianjiaItem(title=title,price=price,area=area,fl=fl
                           )
        yield item

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 19:43
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
建议你看下这篇博客👉 ：Scrapy中如何向Spider传入参数

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy genspider 创建新spider失败 python 有问必答
2021-12-15 21:09

回答 1 已采纳创建项目只有scrapy startproject指令，scrapy genspider是在当前项目创建spider
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 23:12

回答 2 已采纳这个是百度反爬虫导致的，
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
基于Python的Scrapy爬虫框架设计源码
2024-04-11 16:56

本源码提供了一个基于Python的Scrapy爬虫框架设计。项目包含20个文件，其中包括6个Python字节码文件、6个Python源文件、3个XML文件、1个Gitignore文件、1个IML文件、1个CSV文件、1个TXT文件和1个CFG文件。这个项目是...
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
SCRAPY运行报错， [scrapy.core.engine] INFO: Spider closed (finished)！ python
2021-07-26 15:56

回答 2 已采纳这个就是正常爬完了的日志信息吧，没啥问题啊
python运行scrapy框架出现报错 NameError: name 'imp' is not defined python
2022-04-28 23:20

回答 7 已采纳如果你不记得改了什么的话，重装吧。毕竟你改了啥，怎么改回去就只有神才知道了。环境里面的.py文件改了的话基本没什么方法，除了重装。按报错来看，playwright, pyee,twisted,win3
Python爬虫基础：scrapy 框架结构及scrapy.Spider
2022-04-02 16:36

「已注销」的博客 scrapy 为什么是框架而不是库? scrapy是如何工作的? 项目结构在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令: 注意:创建项目时，会在当前目录下新建爬虫项目的目录。 ...
来个大佬教下小白scrapy怎么创建多个spider python
2019-11-13 21:17

回答 1 已采纳 scrapy genspider (第二个spider名字) （网址）
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
爬虫之scrapy报错spider 农田 python 数据挖掘
2019-01-13 20:15

回答 2 已采纳在settting里添加一些基础配置信息就可以了
基于Python的scrapy的使用
2023-08-02 11:41

Scrapy爬虫框架的组件：引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务，是框架的核心调度器(Scheduler): 用来接受引擎发过来的请求, 将请求放...爬虫中间件(Spider Middlewares): Scrapy引擎和爬虫之间的框
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
Python：Spider爬虫工程化入门到进阶（1）创建Scrapy爬虫项目
2023-08-03 23:09

彭世瑜的博客 Python：Spider爬虫工程化入门到进阶系列: Python：Spider爬虫工程化入门到进阶（1）创建Scrapy爬虫项目 Python：Spider爬虫工程化入门到进阶（2）使用Spider Admin Pro管理scrapy爬虫项目本文通过简单的小例子，...
Python - 爬虫之Scrapy
2021-07-13 19:23

GitLqr的博客 Scrapy 是一个 python 编写的，被设计用于爬取网络数据、提取结构性数据的开源网络爬虫框架。作用：少量的代码，就能够快速的抓取官方文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/ 补充：Scrapy 使用...
没有解决我的问题, 去提问

悬赏问题

¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)

scrapy引擎为什么没有开启spider

1条回答 默认 最新

悬赏问题

1条回答默认最新