发际线男孩 2019-10-16 10:06 采纳率: 0%
浏览 354

如何解决拉勾网302问题? 求大牛指导

最近在抓取拉勾网招聘信息的过程中 抓取一段时间后 会出现302重定向
图片说明

检查后发现被重定向至登录页面
图片说明

本以为完美解决 但结果并没有这么简单,登录后还是会出现302问题
求大神帮忙解惑!!

settings配置如下:

BOT_NAME = 'LagouSpider'

SPIDER_MODULES = ['LagouSpider.spiders']
NEWSPIDER_MODULE = 'LagouSpider.spiders'

ROBOTSTXT_OBEY = False

CONCURRENT_REQUESTS = 2
DOWNLOAD_DELAY = 3

#禁止重定向
COOKIES_ENABLED = False
REDIRECT_ENABLED = False

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 2

DEFAULT_REQUEST_HEADERS = {

        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Connection': 'keep-alive',
        'Host': 'www.lagou.com',
        'Origin': 'https://www.lagou.com',
        'Referer': 'https://www.lagou.com/',
}
DOWNLOADER_MIDDLEWARES = {
   # 'LagouSpider.middlewares.LagouspiderDownloaderMiddleware': 543,
    'LagouSpider.middlewares.RandomUserAgentMiddleware' : 100,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware' : None,
    'LagouSpider.middlewares.LagoucrawlerDownloaderMiddleware' : 543,
}

  • 写回答

1条回答 默认 最新

  • 你知我知皆知 2024-07-29 22:40
    关注

    以下回答参考 皆我百晓生券券喵儿 等免费微信小程序相关内容作答,并由本人整理回复。

    要解决拉勾网302问题,您可以尝试以下几个方法:

    1. 检查URL:确保您正在访问的URL是正确的。通常,302重定向意味着请求已经成功到达目标服务器,但请求没有得到预期的结果(例如,由于权限限制、认证错误或其他原因)。如果URL有误,请确保它正确指向了目标网站。

    2. 使用代理服务:通过使用代理服务器,可以防止IP地址被封锁或识别为恶意行为。这将帮助您避免因重复请求而触发302重定向的问题。但是请注意,过度使用代理可能会对您的搜索引擎排名产生负面影响。

    3. 增加爬行深度:有时候,频繁地进行大量爬行会触发反爬虫机制。为了减轻这种风险,您可以适当减少爬行次数或者设置一个合理的爬行深度阈值。

    4. 优化HTTP头部:检查并优化您的HTTP头部信息,包括Content-Type、Accept等。这些信息可能会影响服务器对请求的处理方式。

    5. 使用多线程或多进程:如果您的任务非常庞大,考虑使用多线程或多进程来提高并发能力。这样可以在一定程度上缓解302重定向的问题。

    6. 使用代理IP库:一些Python库(如requestsscrapy) 提供了支持代理的功能。这些库允许您绕过反爬虫策略,从而降低被封禁的风险。

    7. 调整爬行逻辑:如果您能提供更具体的代码示例,我可以为您提供更具体的方法来解决302问题。请提供您遇到的具体问题和您的爬虫实现,以便我能够更好地帮助您解决问题。

    评论

报告相同问题?