用requests或者scrapy获取浏览器的cookies,或者爬虫的时候自己带进去也可以？

我要cookies，requests的session拿到的cookies不全

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

CSDN专家-深度学习进阶 2021-05-14 15:57

关注

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest

class PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider
    name = 'pach'                                           #设置爬虫名称
    allowed_domains = ['edu.iqianyue.com']                  #爬取域名
    # start_urls = ['http://edu.iqianyue.com/index_user_login.html']     #爬取网址,只适于不需要登录的请求，因为没法设置cookie等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #设置浏览器用户代理

    def start_requests(self):       #用start_requests()方法,代替start_urls
        """第一次请求一下登录页面，设置开启cookie使其得到cookie，设置回调函数"""
        return [Request('http://edu.iqianyue.com/index_user_login.html',meta={'cookiejar':1},callback=self.parse)]

    def parse(self, response):     #parse回调函数

        data = {                    #设置用户登录信息，对应抓包得到字段
            'number':'adc8868',
            'passwd':'279819',
            'submit':''
            }

        # 响应Cookie
        Cookie1 = response.headers.getlist('Set-Cookie')   #查看一下响应Cookie，也就是第一次访问注册页面时后台写入浏览器的Cookie
        print(Cookie1)

        print('登录中')
        """第二次用表单post请求，携带Cookie、浏览器代理、用户登录信息，进行登录给Cookie授权"""
        return [FormRequest.from_response(response,
                                          url='http://edu.iqianyue.com/index_user_login',   #真实post地址
                                          meta={'cookiejar':response.meta['cookiejar']},
                                          headers=self.header,
                                          formdata=data,
                                          callback=self.next,
                                          )]
    def next(self,response):
        a = response.body.decode("utf-8")   #登录后可以查看一下登录响应信息
        # print(a)
        """登录后请求需要登录才能查看的页面，如个人中心，携带授权后的Cookie请求"""
        yield Request('http://edu.iqianyue.com/index_user_index.html',meta={'cookiejar':True},callback=self.next2)
    def next2(self,response):
        # 请求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print(Cookie2)

        body = response.body  # 获取网页内容字节类型
        unicode_body = response.body_as_unicode()  # 获取网站内容字符串类型

        a = response.xpath('/html/head/title/text()').extract()  #得到个人中心页面
        print(a)

报告相同问题？

关注问题

Python，爬虫session怎么重置清空，或者怎么退出网页帐号登录 python
2021-08-02 16:25

回答 1 已采纳 session =None
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料
2021-10-25 19:26

Python网络爬虫是一种用于自动化网页数据抓取的技术，它能够高效地从互联网上获取大量信息。本套教学资料深入解析了Python爬虫的核心技术、Scrapy框架以及分布式爬虫的实现，旨在帮助学习者掌握这一领域的核心技能。...
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python--爬虫 requests库如何进行网页等待？ python 数据挖掘
2019-03-14 10:02

回答 2 已采纳好像不行，推荐用selenium吧，implicitly_wait方法
Python高效爬虫——scrapy介绍与使用
2024-05-28 19:20

做梦都在改BUG的博客 Scrapy是一个快速且高效的网页抓取框架，用于抓取网站并从中提取结构化数据。它可用于多种用途，从数据挖掘到监控和自动化测试。
请问写python爬虫如何用urllib或者requests模拟用户登录 python 爬虫
2015-11-30 11:19

回答 1 已采纳可以参考下，过程都关不多，就是你要先用fiddler查看你的模拟登录的网站的请求报头是什么格式的。然后再用python自己来构造请求报头 http://blog.csdn.net/evankak
Python如何用requests的post方法获取在线识别二维码网址返回的数据？ python
2020-12-27 08:25

回答 2 已采纳 https://market.aliyun.com/products/57126001/cmapi021204.html?#sku=yuncode1520400000 用这个解码API
python的requests爬虫返回了与原网页内容不符的javascript，如何解决？ python
2021-03-29 11:19

回答 3 已采纳异步加载的问题, 可以使用selenium 工具包进行爬取, 可参考: import pandas as pd import numpy as np import time from seleni
python scrapy爬虫
2022-08-05 15:52

Python的Scrapy是一个强大的爬虫框架，用于高效地抓取网站数据并进行处理。Scrapy架构的核心组件包括引擎、调度器、下载器、爬虫、项目管道、下载器中间件、爬虫中间件以及调度中间件，它们共同协作完成网络爬虫的...
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
Python requests 爬虫
2024-01-12 00:49

**Python Requests 爬虫详解** 在Python编程领域，网络爬虫是一种常用的数据获取技术，用于自动化地从互联网上抓取信息。其中，`requests`库是Python中最受欢迎的HTTP客户端库，它使得发送HTTP请求变得简单易行。...
Python爬虫学习 | Scrapy框架详解
2024-06-22 16:33

懒大王爱吃狼的博客何为框架，就相当于一个封装...scrapy是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架，scrapy使用了一种非阻塞（又名异步）的代码实现并发的，Scrapy之所以能实现异步，得益于twisted框架。
没有解决我的问题, 去提问

悬赏问题

¥15 气象网格数据与卫星轨道数据如何匹配
¥100 java ee ssm项目悬赏，感兴趣直接联系我
¥15 微软账户问题不小心注销了好像
¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
¥15 curl 命令调用正常，程序调用报 java.net.ConnectException: connection refused
¥20 关于web前端如何播放二次加密m3u8视频的问题
¥15 使用百度地图api 位置函数报错？
¥15 metamask如何添加TRON自定义网络
¥66 关于川崎机器人调速问题
¥15 winFrom界面无法打开

码龄粉丝数原力等级 --

用requests或者scrapy获取浏览器的cookies,或者爬虫的时候自己带进去也可以？

3条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

用requests或者scrapy获取浏览器的cookies,或者爬虫的时候自己带进去也可以？

3条回答 默认 最新

悬赏问题

3条回答默认最新