maiguareno1 2015-02-11 07:32 采纳率: 0%
浏览 2279

scrapy能够实现先登录再抓取吗

想用python中的scrapy框架抓取网页,但是需要先登录才能显示抓取内容,登录即为一个post操作,但是scrapy中直接通过spider模块的start_url中的url在调度器中生成request,如果需添加post参数是在调试器里添加吗,另外在哪里可以打开并编辑调试器代码? 求用过scrapy的高手解答?_

  • 写回答

1条回答 默认 最新

  • oyljerry 2015-02-11 08:02
    关注
    class LoginSpider(BaseSpider):
        name = 'example.com'
        start_urls = ['http://www.example.com/users/login.php']
    
        def parse(self, response):
            return [FormRequest.from_response(response,
                        formdata={'username': 'john', 'password': 'secret'},
                        callback=self.after_login)]
    
        def after_login(self, response):
            # check login succeed before going on
            if "authentication failed" in response.body:
                self.log("Login failed", level=log.ERROR)
                return
    
            # continue scraping with authenticated session...
                    else:
            return Request(url="http://www.example.com/tastypage/",
                   callback=self.parse_tastypage)
    
    
    评论

报告相同问题?

悬赏问题

  • ¥15 树莓派与pix飞控通信
  • ¥15 自动转发微信群信息到另外一个微信群
  • ¥15 outlook无法配置成功
  • ¥30 这是哪个作者做的宝宝起名网站
  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题