scrapy如何传入start_requests

现在采用分类+翻页爬取运行出错如何把翻页的url传给start_requests

class FyxzSpider(scrapy.Spider):
    name = 'fyxz'
    allowed_domains = ['fyxz.com']
    # start_urls = ['http://fyxz.com/']
    start_urls = 'http://fyxz.com/sort/%s?page1'

    custom_settings = {
        'CONCURRENT_REQUESTS': 2,
        'DOWNLOAD_DELAY': 1,
    }

    categories = {
        'yingyinbofang': '影音播放', 'xitonggongju': '系统工具', 'tongxunshejiao': '通讯社交', 'shoujimeihua': '手机美化',
        'xinwenyuedu': '新闻阅读', 'sheyingtuxiang': '摄影图像', 'kaoshixuexi': '考试学习', 'wangshanggouwu': '网上购物',
        'jinronglicai': '金融理财', 'shenghuoxiuxian': '生活休闲', 'lvyouchuxing': '旅游出行', 'jiankangyundong': '健康运动',
        'bangongshangwu': '办公商务', 'yuerqinzi': '育儿亲子',
        'xiuxianyizhi': '休闲益智', 'juesebanyan': '角色扮演', 'dongzuomaoxian': '动作冒险', 'wangluoyouxi': '网络游戏',
        'feixingsheji': '飞行射击', 'jingyingcelue': '经营策略', 'paokujingsu': '跑酷竞速', 'tiyujingji': '体育竞技',
        'pukeqipai': '扑克棋牌', 'fuzhugongju': '辅助工具',
    }

    def start_requests(self):
        pass


    def parse_category(self):
        for key in self.categories.keys():
            yield scrapy.Request(self.start_urls % key, callback=self.parse_page)


    def parse_page(self, response):
        lis = response.xpath('//div[@class="sort-content"]/ul/li/a/@href')
        for li in lis:
            yield scrapy.Request(li, callback=self.parse_item)




    def parse_item(self, response, **kwargs):
        loader = ItemLoader(item=AppItem(), response=response)
        loader.add_xpath('name', '//div[@class="app-down-box down-panel flex"]/div[@class="info"]/h1/text()')
        yield loader.load_item()

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱音斯坦牛全栈领域优质创作者 2021-12-28 08:16
关注
获取到翻页的url之后调用start_request不就传了，求采纳，谢谢🙈🙈🙈

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

scrapy中start_requests指定回调函数为何没有调用 python 有问必答爬虫
2022-01-20 15:02

回答 2 已采纳改成这样试试 yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='
在scrapy中能不能进行多次post请求？ python
2020-12-13 11:29

回答 1 已采纳通过scrapy 可以多次发送 post 请求的，在start_requests方法中通过 yield 去调用另一个方法即可
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 13:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
scrapy在start_requests中传入参数给parser
2020-01-17 02:55

_吟游诗人的博客 scrapy在start_requests中发出请求时，需要传入一些参数进行动态控制。为保证scrapy的请求的并发性，将其改为串行执行显然严重影响效率，因此不考虑采用全局变量的方法。因此可以使用在scrapy.Request中加入meta数据...
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 08:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 10:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
scrapy中请求携带json与request有什么区别？【赏】 python
2020-12-15 03:12

回答 4 已采纳兄弟，半个小时的辛苦 class CeshiSpider(scrapy.Spider): name = 'ceshi' api_headers = { 'Host'
scrapy的start_requests无法运行
2019-10-23 09:41

Jayj1997的博客今天犯了一个终极沙雕的错误，沙雕到不能再沙雕，scrapy写的爬虫无法运行下去，到了start_requests就跳过了，最后发现是start_requests写成了start_request，我的老妈啊我几个小时就因为一个s嗝屁了ORZ ...
用scrapy爬到一半时停止并报错invalid session id python 爬虫
2022-01-04 08:58

回答 1 已采纳这位博友情况跟你的有点类似，你可以借鉴一下 https://blog.csdn.net/weixin_35757704/article/details/120706276
scrapy中运行selemium填写验证码，browser启动后语句不执行 python selenium 有问必答爬虫
2021-12-16 06:44

回答 1 已采纳你在代码加个print()看看具体执行到哪一步
Scrapy框架（爬虫中间件）：TypeError: __init__() missing 5 required positional arguments python 中间件爬虫
2022-01-29 03:40

回答 2 已采纳在init函数内部引入settings然后依次赋值就解决了
关于Scrapy的start_requests中的所有Requests不一口气加入请求队列这件事
2021-02-21 07:48

deltapluskai的博客 Scrapy源码阅读记录文章目录Scrapy源码阅读记录爬虫启动Crawler类职责主要方法Engine类职责主要方法Scraper类职责主要方法结论更通俗的说因为爬虫需求比较特殊（毕设要做社交网络相关的内容），网上的博客写的都...
python scrapy request_python – Scrapy Start_request解析
2020-12-08 02:18

weixin_39723655的博客我从Scrapy的start_requests开始,我将传递搜索查询并重定向到另一个函数解析,该解析将从搜索结果中检索URL.最后我调用另一个函数parse_item来解析结果.我能够提取所有搜索结果url,但我无法解析结果(parse_item不起...
python requests是什么_python – Scrapy：使用start_requests()的正确方法是什么？
2020-11-23 22:59

weixin_39550937的博客这就是我的蜘蛛的设置方式class CustomSpider(CrawlSpider):name = 'custombot'allowed_domains = ['www.domain.com']start_urls = ['http://www.domain.com/some-url']rules = (Rule(SgmlLinkExtractor(allow=r'.*?...
scrapy完整版重写start_requests方法 python requests 强大用法
2020-04-07 03:29

0x8g1T9E的博客 scrapy第一次请求方式的重写 # -*- coding: utf-8 -*- import scrapy from ..items import MaoyanItem class MaoyanSpider(scrapy.Spider): name = 'maoyan3' allowed_domains = ['maoyan.... #重写start_req...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 12月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月28日

悬赏问题

¥20 小规模孤立词识别系统设计
¥15 关于Java对接海康威视车牌识别一体机SDK是否需要固定外网的IP？
¥15 Linux扩容时，格式化卡住了：vgdispaly查看卷组信息，没有输出
¥18 关于#ubuntu#的问题：使用背景-工作职责内有七八台ubuntu系统的电脑，平时需要互相调取资料，想实现把这几台电脑用交换机组成一个局域网，来实现指定文件夹的互相调取和写入
¥20 求一个简易射频信号综测仪
¥15 esp8266 tally灯接收端改为发射端
¥30 Labview代码调用access 数据库，相同代码其中一个调用不出来是为什么
¥15 基于51单片机的交通灯系统，找改程序有点急
¥15 java启动jar包后，运行过程中宕机
¥15 进行LM运算过程中出现了无法识别的问题，具体问题如下图

scrapy如何传入start_requests

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新