scrapy能够实现先登录再抓取吗

想用python中的scrapy框架抓取网页，但是需要先登录才能显示抓取内容，登录即为一个post操作，但是scrapy中直接通过spider模块的start_url中的url在调度器中生成request，如果需添加post参数是在调试器里添加吗，另外在哪里可以打开并编辑调试器代码？求用过scrapy的高手解答？_

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

oyljerry 2015-02-11 08:02

关注

class LoginSpider(BaseSpider):
    name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return [FormRequest.from_response(response,
                    formdata={'username': 'john', 'password': 'secret'},
                    callback=self.after_login)]

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return

        # continue scraping with authenticated session...
                else:
        return Request(url="http://www.example.com/tastypage/",
               callback=self.parse_tastypage)

报告相同问题？

关注问题

python抓取405错误 python 有问必答爬虫
2022-01-07 16:37

回答 2 已采纳建议使用requests,添加参数headers,cookies，params,这样试一下。
用scrapy.Request怎么抓取JS动态页面 python
2022-01-03 10:32

回答 1 已采纳 self.xidian_next_page确定有值吗
scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
一个基于scrapy的danbooru图片抓取工具（Python）
2023-12-26 13:01

调整需要抓取的tag可以更改/danbooru_crawler/settings.py文件内的SEARCH_TAG值，多个tag用+相连图片将输出在/pics/full文件夹内如果运行一段时间后没有图片可能是Pillow版本过低，建议在虚拟环境下执行 pip ...
如何使用带有Scrapy的admin-ajax.php从网站上抓取数据 ajax php python
2018-07-11 12:56

回答 1 已采纳 I finally found how to do so, I am sure this is not the best way but at least I did what I wanted
scrapy 这个端口什么意思，我电脑没有这个端口也能抓取到数据。这个端口作用是什么 python
2021-07-29 20:21

回答 1 已采纳看中间件代码，这两个不是scrapy自带的玩意
scrapy抓取关注者返回403，加请求头也报403，尝试添加了其他的请求头依然403，怎么解决 python
2021-07-25 16:57

回答 1 已采纳服务器拒绝了你的连接，你的ip可能被封了
使用Scrapy抓取职位招聘数据-爬虫python代码
2022-06-12 08:47

基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化。环境安装配置建议直接安装anconda，然后git clone后进入项目目录，执行pip install -r requirements.txt ...
前程无忧网址数据练习抓取，为什么会返回空值(语言-python) python 有问必答爬虫
2021-12-05 21:39

回答 1 已采纳你输出下str_data 看看源代码中有你需要爬取的内容吗你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。
如何使用这个python程序 python 爬虫
2022-10-24 06:54

回答 4 已采纳希望可以帮上你,对你有启发 from selenium import webdriver from lxml import etree import numpy as np def arr_si
用python抓取爬虫时无法抓取::before与::after之间的内容
2016-10-06 03:24

回答 3 已采纳可能是Ajax异步加载的。需要用selenium等模拟浏览器
Python使用scrapy抓取网站sitemap信息的方法
2020-09-22 06:48

主要介绍了Python使用scrapy抓取网站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下
这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数? python 爬虫
2021-09-06 00:23

回答 2 已采纳可以用meta累计请求次数，在后续的请求中获取请求次数。 def parse(self, response): meta = {'crawlCnt': 0} if response.met
scrapy-flask-imdb-python:使用 Flask 实现的 Python 项目抓取 imdb 和 Web 应用程序
2021-06-21 22:57

项目介绍这是一个简单的 Python 项目，说明了以下内容的使用： Scrapy（抓取和爬行框架） Flask（基于 Werkzeug 的微网页开发框架）该项目分为位于各自文件夹中的两个子项目。我们首先抓取 Internet 电影数据库 ...
python scrapy框架进行页面数据抓取
2021-01-20 02:49

第一部分爬虫架构介绍 1.Spiders（自己书写的爬虫逻辑，处理url及网页等【spider genspider -t 指定模板爬虫文件名域名】),返回Requests给engine——> 2.engine拿到requests返回给scheduler（什么也没做）——> ...
没有解决我的问题, 去提问

悬赏问题

¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题

码龄粉丝数原力等级 --

scrapy能够实现先登录再抓取吗

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

scrapy能够实现先登录再抓取吗

1条回答 默认 最新

悬赏问题

1条回答默认最新