python爬虫Scrapy框架中分布设计从节点爬虫程序出现为题

爬虫程序：

redis_key = 'xinfang_detail'
    # rules = (
    #     Rule(LinkExtractor(allow=r'fang\.anjuke\.com\/loupan\/\d+\.html'), callback='parse_item', follow=True),
    # )
    def parse_item(self, response):
        print("*"*20 + "开始爬取" + response.url)
        item = XinfangItem()
        # 房区名
        item['title'] = response.xpath('//*[@id="container"]/div[1]/div[2]/div[1]/div/div/div[1]/h1/text()').extract_first()
        # 价格
        item['price'] = response.xpath('//*[@id="container"]/div[1]/div[2]/div[1]/dl/dd[1]/p/em/text()').extract_first()
        # 地址
        yield item

反馈：

2021-05-14 10:38:46 [scrapy.core.scraper] ERROR: Spider error processing <GET https://ly.fang.anjuke.com/loupan/448966.html> (referer: https://ly.fang.anjuke.com/loupan/437877.html)
Traceback (most recent call last):
  File "d:\desktop\anjuke1.0\venv\lib\site-packages\twisted\internet\defer.py", line 662, in _runCallbacks
    current.result = callback(current.result, *args, **kw)
  File "d:\desktop\anjuke1.0\venv\lib\site-packages\scrapy\spiders\crawl.py", line 105, in _callback
    rule = self._rules[response.meta['rule']]
IndexError: list index out of range

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
江天暮雪丨 2021-05-14 11:03
关注
这个IndexError错误是列表索引超过列表长度了，但我在你的代码中没看到有列表访问。可以贴一下完整代码？

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
【Python爬虫必备—＞Scrapy框架快速入门篇——上】
2021-08-09 11:30

孤寒者的博客【Python爬虫必备—＞Scrapy框架快速入门篇——上】
python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-14 00:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
爬虫scrapy框架为什么items一直报错 python 有问必答
2021-12-23 22:10

回答 1 已采纳你这个文件是house.py，然后又从这个house引入，改一下文件名
scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？ python redis 爬虫
2021-09-02 17:19

回答 2 已采纳方法一：在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理最后在settings中开启管道。方法二：scrapy用system命令在
六 Python之scrapy爬虫框架
2021-05-07 11:56

麦芽糖0219的博客 scrapy的工作流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis概念作用和流程 scrapy_splash组件的使用 scrapy的日志信息与配置 scrapyd部署scrapy...
python运行scrapy框架出现报错 NameError: name 'imp' is not defined python
2022-04-28 23:20

回答 7 已采纳如果你不记得改了什么的话，重装吧。毕竟你改了啥，怎么改回去就只有神才知道了。环境里面的.py文件改了的话基本没什么方法，除了重装。按报错来看，playwright, pyee,twisted,win3
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
Python的网络爬虫框架-Scrapy爬虫框架的使用
2023-07-10 02:24

ζ小菜鸡的博客大家好我是小菜鸡，让我们一起学习Python的网络爬虫框架-Scrapy爬虫框架的使用（一起努力，咱们顶峰相见！！！）
使用python scrapy框架写爬虫如何爬取搜狐新闻的参与人数？ python 爬虫
2016-03-29 10:07

回答 2 已采纳这个是可能异步ajax返回的，所以需要用selenium等webdriver来处理
python爬虫scrapy框架教程_Python爬虫框架Scrapy基本用法入门教程
2020-11-26 06:06

weixin_39805364的博客本文实例讲述了Python爬虫框架Scrapy基本用法。分享给大家供大家参考，具体如下：Xpath标题二级标题爬虫1爬虫2在上述html代码中，我要获取h2的内容,我们可以使用以下代码进行获取：info = response.xpath("/...
python爬虫scrapy框架爬取网页数据_Python爬虫：Scrapy框架基础框架结构及腾讯爬取...
2020-11-21 03:28

weixin_39980575的博客原标题：Python爬虫：Scrapy框架基础框架结构及腾讯爬取Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取...
没有解决我的问题, 去提问

悬赏问题

¥15 如何绘制动力学系统的相图
¥15 对接wps接口实现获取元数据
¥20 给自己本科IT专业毕业的妹m找个实习工作
¥15 用友U8：向一个无法连接的网络尝试了一个套接字操作，如何解决？
¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)
¥50 mac mini外接显示器画质字体模糊
¥15 TLS1.2协议通信解密
¥40 图书信息管理系统程序编写
¥20 Qcustomplot缩小曲线形状问题
¥15 企业资源规划ERP沙盘模拟

python爬虫Scrapy框架中分布设计从节点爬虫程序出现为题

3条回答 默认 最新

悬赏问题

3条回答默认最新