a'ゞ筱辰 2021-12-28 15:45 采纳率: 100%
浏览 57
已结题

scrapy如何传入start_requests

现在采用分类+翻页爬取 运行出错 如何把翻页的url传给start_requests

class FyxzSpider(scrapy.Spider):
    name = 'fyxz'
    allowed_domains = ['fyxz.com']
    # start_urls = ['http://fyxz.com/']
    start_urls = 'http://fyxz.com/sort/%s?page1'

    custom_settings = {
        'CONCURRENT_REQUESTS': 2,
        'DOWNLOAD_DELAY': 1,
    }

    categories = {
        'yingyinbofang': '影音播放', 'xitonggongju': '系统工具', 'tongxunshejiao': '通讯社交', 'shoujimeihua': '手机美化',
        'xinwenyuedu': '新闻阅读', 'sheyingtuxiang': '摄影图像', 'kaoshixuexi': '考试学习', 'wangshanggouwu': '网上购物',
        'jinronglicai': '金融理财', 'shenghuoxiuxian': '生活休闲', 'lvyouchuxing': '旅游出行', 'jiankangyundong': '健康运动',
        'bangongshangwu': '办公商务', 'yuerqinzi': '育儿亲子',
        'xiuxianyizhi': '休闲益智', 'juesebanyan': '角色扮演', 'dongzuomaoxian': '动作冒险', 'wangluoyouxi': '网络游戏',
        'feixingsheji': '飞行射击', 'jingyingcelue': '经营策略', 'paokujingsu': '跑酷竞速', 'tiyujingji': '体育竞技',
        'pukeqipai': '扑克棋牌', 'fuzhugongju': '辅助工具',
    }

    def start_requests(self):
        pass


    def parse_category(self):
        for key in self.categories.keys():
            yield scrapy.Request(self.start_urls % key, callback=self.parse_page)


    def parse_page(self, response):
        lis = response.xpath('//div[@class="sort-content"]/ul/li/a/@href')
        for li in lis:
            yield scrapy.Request(li, callback=self.parse_item)




    def parse_item(self, response, **kwargs):
        loader = ItemLoader(item=AppItem(), response=response)
        loader.add_xpath('name', '//div[@class="app-down-box down-panel flex"]/div[@class="info"]/h1/text()')
        yield loader.load_item()

  • 写回答

1条回答 默认 最新

  • 爱音斯坦牛 全栈领域优质创作者 2021-12-28 16:16
    关注

    获取到翻页的url之后调用start_request不就传了,求采纳,谢谢🙈🙈🙈

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 12月29日
  • 已采纳回答 12月28日
  • 创建了问题 12月28日

悬赏问题

  • ¥15 请问我该如何添加自己的数据去运行蚁群算法代码
  • ¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
  • ¥15 网络设备配置与管理这个该怎么弄
  • ¥20 机器学习能否像多层线性模型一样处理嵌套数据
  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码