a'ゞ筱辰 2021-12-28 15:45 采纳率: 100%
浏览 51
已结题

scrapy如何传入start_requests

现在采用分类+翻页爬取 运行出错 如何把翻页的url传给start_requests

class FyxzSpider(scrapy.Spider):
    name = 'fyxz'
    allowed_domains = ['fyxz.com']
    # start_urls = ['http://fyxz.com/']
    start_urls = 'http://fyxz.com/sort/%s?page1'

    custom_settings = {
        'CONCURRENT_REQUESTS': 2,
        'DOWNLOAD_DELAY': 1,
    }

    categories = {
        'yingyinbofang': '影音播放', 'xitonggongju': '系统工具', 'tongxunshejiao': '通讯社交', 'shoujimeihua': '手机美化',
        'xinwenyuedu': '新闻阅读', 'sheyingtuxiang': '摄影图像', 'kaoshixuexi': '考试学习', 'wangshanggouwu': '网上购物',
        'jinronglicai': '金融理财', 'shenghuoxiuxian': '生活休闲', 'lvyouchuxing': '旅游出行', 'jiankangyundong': '健康运动',
        'bangongshangwu': '办公商务', 'yuerqinzi': '育儿亲子',
        'xiuxianyizhi': '休闲益智', 'juesebanyan': '角色扮演', 'dongzuomaoxian': '动作冒险', 'wangluoyouxi': '网络游戏',
        'feixingsheji': '飞行射击', 'jingyingcelue': '经营策略', 'paokujingsu': '跑酷竞速', 'tiyujingji': '体育竞技',
        'pukeqipai': '扑克棋牌', 'fuzhugongju': '辅助工具',
    }

    def start_requests(self):
        pass


    def parse_category(self):
        for key in self.categories.keys():
            yield scrapy.Request(self.start_urls % key, callback=self.parse_page)


    def parse_page(self, response):
        lis = response.xpath('//div[@class="sort-content"]/ul/li/a/@href')
        for li in lis:
            yield scrapy.Request(li, callback=self.parse_item)




    def parse_item(self, response, **kwargs):
        loader = ItemLoader(item=AppItem(), response=response)
        loader.add_xpath('name', '//div[@class="app-down-box down-panel flex"]/div[@class="info"]/h1/text()')
        yield loader.load_item()

  • 写回答

1条回答

      报告相同问题?

      相关推荐 更多相似问题

      问题事件

      • 已结题 12月29日
      • 已采纳回答 12月28日
      • 创建了问题 12月28日

      悬赏问题

      • ¥30 关于#网络安全#的问题:非对称加密验证
      • ¥20 关于线性代数里施密特正交化和QR分解的疑问
      • ¥15 matlab超类包含解析错误
      • ¥15 python拖拽文件问题
      • ¥15 执行import paddle代码出现错误如何解决?
      • ¥15 hisat2align exited with value 137
      • ¥15 寻找大学生合作开发软件(Delphi)
      • ¥30 AndroidBench&eMMC内存测试速度&Android
      • ¥15 W10 文件共享失败 怎么解决
      • ¥20 b站私信完整导出的方法