scrapy中怎样递归的处理新增的url

def parse(self, response):#response为抓取返回的网页内容
item = Mypro1Item()
item['urlname'] = response.xpath("/html/head/title/text()")

    urls = re.compile(r'[a-zA-Z]+://[^\s]*[.com|.cn]').findall(response)
    for url in urls:
        yield Request(url,callback=self.parse)
    print(item['urlname'])


        为什么实现不了递归处理。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 18:27
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
请看👉 ：scrapy框架，腾讯新闻爬取

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
python 的scrapy框架
2022-04-07 10:32

柏常青的博客本文就学习一下怎样快速下载数据资源（资源：文字文章，图像，影像）。数据不求人。熟悉网页请求库，urllib,requests，beautiful soup。重点学习scrapy框架，学会灵活使用这个工具。学习内容： scrapy框架的...
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
scrapy中start_requests指定回调函数为何没有调用 python 有问必答爬虫
2022-01-20 23:02

回答 2 已采纳改成这样试试 yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
Scrapy框架（高效爬虫）
2023-03-04 20:17

En^_^Joy的博客 Scrapy拥有高性能持久化存储，异步数据下载，高性能数据解析，分布式功能。
scrapy在创建爬虫文件时候url的错误 python 爬虫
2023-04-19 23:01

回答 1 已采纳是这样的，没问题。scrapy认为加了/b/的不是一个正确的网站，因为一般的网站首页都是.com .cn这样结尾的。所以默认去掉了后面的。需要自己手动修改的。
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
python的requests请求连接中包含*怎么处理啊 python
2022-05-08 23:02

回答 3 已采纳链接如果没错的话直接在*前面加上反斜杠\ 转义
python scrapy 简单教程_【Python 爬虫教程】Scrapy 学习笔记（一）
2020-11-29 07:18

weixin_39860108的博客作为 scrapy 学习笔记的第一篇，主要是了解此框架的基本使用。并通过一个 demo 感受 scrapy 框架的强大。查看原文。scrapyScrapy is a fast high-level web crawling and web scraping framework, used to crawl ...
scrapy genspider，创建文件失败 python
2022-05-30 21:19

回答 1 已采纳编码错了，不能用gbk,因为你这儿有二进制数据，你的用utf8
基于Python的Scrapy静态网页爬取
2019-07-10 09:57

亍彳的博客用Scrapy爬取网页 1.创建工程 2.我们的第一个爬虫 3.如何运行我们的爬虫 4.幕后发生了什么 5.start_requests方法的捷径 6.提取数据 7.XPath简介 8.提取引用和作者 9.从我们的爬虫中提取数据 10.存储爬取的数据 ...
Python 网络爬虫从0到1 （6）：Scrapy框架入门最全详解
2020-09-30 11:41

Zheng__Huang的博客而要进行数据量较大、对网页爬取速度较为敏感的网站爬取，就需要使用Scrapy框架。Scrapy为什么是一个框架而不是库？如何使用这样一个性能更强但又较Requests库复杂的工具进行网站爬取？请看本文讲解。本文涵盖了...
没有解决我的问题, 去提问

悬赏问题

¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图点聚合中Marker的位置无法实时更新
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题
¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式

scrapy中怎样递归的处理新增的url

1条回答 默认 最新

悬赏问题

1条回答默认最新