如何在scrapy中带cookie访问？

看到网上的方法是发起Request请求时，带上meta={'cookiejar':1}，但是我按这个方法操作，并没有带上cookie啊，print的时候cookie是空的，具体应该怎么实现呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

Next66 2019-06-11 11:42

关注

import scrapy
from scrapy.http import Request, FormRequest


class PachSpider(scrapy.Spider):  # 定义爬虫类，必须继承scrapy.Spider
    name = 'pach'  # 设置爬虫名称
    allowed_domains = ['edu.iqianyue.com']  # 爬取域名

    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    def start_requests(self):  # 用start_requests()方法,代替start_urls
        """第一次请求一下登录页面，设置开启cookie使其得到cookie，设置回调函数"""
        return [Request('http://edu.iqianyue.com/index_user_login.html', meta={'cookiejar': 1}, callback=self.parse)]

    def parse(self, response):  # parse回调函数

        data = {  # 设置用户登录信息，对应抓包得到字段
            'number': '****',
            'passwd': '****',
            'submit': ''
        }

        # 响应Cookie
        # 查看一下响应Cookie，也就是第一次访问注册页面时后台写入浏览器的Cookie
        Cookie1 = response.headers.getlist('Set-Cookie')
        print(Cookie1)

        print('登录中')
        """第二次用表单post请求，携带Cookie、浏览器代理、用户登录信息，进行登录给Cookie授权"""
        return [FormRequest.from_response(response,
                                          url='http://edu.iqianyue.com/index_user_login',  # 真实post地址
                                          meta={
                                              'cookiejar': response.meta['cookiejar']},
                                          headers=self.header,
                                          formdata=data,
                                          callback=self.next,
                                          )]

    def next(self, response):
        a = response.body.decode("utf-8")  # 登录后可以查看一下登录响应信息
        # print(a)
        """登录后请求需要登录才能查看的页面，如个人中心，携带授权后的Cookie请求"""
        yield Request('http://edu.iqianyue.com/index_user_index.html', meta={'cookiejar': True}, callback=self.next2)

    def next2(self, response):
        # 请求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print(Cookie2)

        body = response.body  # 获取网页内容字节类型
        unicode_body = response.body_as_unicode()  # 获取网站内容字符串类型

        a = response.xpath('/html/head/title/text()').extract()  # 得到个人中心页面
        print(a)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

如何在scrapy中带cookie访问？ docker python
2019-06-10 21:30

回答 2 已采纳 ``` import scrapy from scrapy.http import Request, FormRequest class PachSpider(scrapy.Spid
不是说scrapy可以自动处理cookie吗？为什么我用scrapy发送request请求为什么不会自动发送cookie信息？ django flask python tornado virtualenv
2019-06-09 21:28

回答 2 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201906/11/1560224325_844052.png)
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
关于python scrapy中添加cookie踩坑记录
2021-01-19 23:38

本来想着很简单：在每个抛出来的Request的meta中带上一个标志位，通过在CookieMiddleware中查看这个标志位，决定是否是给这个Request是否装上Cookie。实现的代码大致如下： class CookieMiddleware(object): ...
python爬虫，为什么使用cookie后会，网页会返回403？ python 有问必答
2021-04-10 20:07

回答 4 已采纳对网站的多次请求时，要模仿浏览器浏览的一样，要有时间间隔不能过于频繁，尽量把请求头写全写对，针对题主的问题，1.csrf_token的获取要从页面分析着手，主要是在页面代码中meta 或其他地方找；二
scrapy中运行selemium填写验证码，browser启动后语句不执行 python selenium 有问必答爬虫
2021-12-16 14:44

回答 1 已采纳你在代码加个print()看看具体执行到哪一步
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
scrapy框架携带cookie访问淘宝购物车功能的实现代码
2020-12-17 07:45

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便 ...
python抓取405错误 python 有问必答爬虫
2022-01-07 16:37

回答 2 已采纳建议使用requests,添加参数headers,cookies，params,这样试一下。
用python requests.post（）实现翻页，表单上传后返回数据缺失 python 有问必答
2021-11-27 19:50

回答 1 已采纳 1.需要传cookies参数,2.data数据的即字典的值都要写成字符串。获取json后再从中用bs4解析出数据。参考如下代码： import requests cookies = { 'P
scrapy 采集如何解决被采集网站的IP受限呢 python
2020-03-06 15:17

回答 2 已采纳还是得写个滑动验证的
【错题集】如何在scrapy中设置cookie？
2022-04-10 17:21

dietoborn的博客如何在scrapy中设置cookie？
前程无忧网址数据练习抓取，为什么会返回空值(语言-python) python 有问必答爬虫
2021-12-05 21:39

回答 1 已采纳你输出下str_data 看看源代码中有你需要爬取的内容吗你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。
python爬虫项目中在使用scrapy添加cookie减少踩坑记录
2020-12-29 14:42

49.99%的博客爬虫项目中，为了防止被封号(提供的可用账号太少)，对于能不登录就可以抓取的内容采用不带cookie的策略，只有必要的内容才带上cookie去访问。本来想着很简单：在每个抛出来的Request的meta中带上一个标
python cookie伪造_关于python scrapy中添加cookie踩坑记录
2021-01-28 15:51

18125857287的博客问题发现：前段时间项目中，为了防止被封号(提供的可用账号太少)，对于能不登录就可以抓取的内容采用不带cookie的策略，只有必要的内容才带上cookie去访问。本来想着很简单：在每个抛出来的Request的meta中带上一个...
没有解决我的问题, 去提问

悬赏问题

¥15 shape_predictor_68_face_landmarks.dat
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料
¥15 使用R语言marginaleffects包进行边际效应图绘制

码龄粉丝数原力等级 --

如何在scrapy中带cookie访问？

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

如何在scrapy中带cookie访问？

2条回答 默认 最新

悬赏问题

2条回答默认最新