使用scrapy框架爬取网易社会招聘数据（ajax异步），如果换成requests爬取能成功，为什么scarpy显示502

使用scrapy框架爬取网易社会招聘数据（ajax异步），为什么显示这样，如果换成requests爬取能成功，为什么scarpy显示502，哪里有问题啊啊

import scrapy
import json
from jsonpath import jsonpath
from mySpider2.items import Myspider2Item


class WangyiSpider(scrapy.Spider):
    name = "wangyi"
    allowed_domains = ["163.com"]
    start_urls = ["https://hr.163.com/api/hr163/position/queryPage"]
    page = 1

    def start_requests(self):
        payload = {
            'currentPage': 1,
            'pageSize': 10
        }
        yield scrapy.Request(
            url=self.start_urls[0],
            callback=self.parse,
            method='POST',
            body=json.dumps(payload).encode('utf-8'),  # 要转化为json字符串
            dont_filter=True,   # 关闭去重过滤
            headers={'x-ehr-uuid':'88ee0a23-727f-4bf8-b96f-f1338ea1b0',
                     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36',
                     'Referer':'https://hr.163.com/job-list.html',
                     'Cookie':'_ntes_nnid=e8d24d6b67619adc709be368c107b5cd,1725195258462; _ntes_nuid=e8d24d6b67619adc709be368c107b5cd; hb_MA-8E16-605C3AFFE11F_source=www.baidu.com; hb_MA-AC55-420C68F83864_source=www.baidu.com; userName=; accountType='}
        )

    def parse(self, response):
        print(response.status)
        # 提取数据
        print('提取数据')
        jsons = response.body()  # json字符串
        data_lists = jsonpath(jsons, '$..list')  # 一个列表，每一项是json字符串
        print('-----', len(data_lists))
        print(data_lists)
        for data in data_lists:
            item = Myspider2Item()
            item['name'] = jsonpath(data, '$.name')
            work_type_mapping = {
                '0': '全职',
                '1': '实习',
                '2': '派遣'
            }
            item['workType'] = work_type_mapping[jsonpath(data, '$.workType')]
            item['place'] = jsonpath(data, '$.workPlaceNameList.0')[0]
            item['produce'] = jsonpath(data, '$.productName')[0]
            item['postType'] = jsonpath(data, '$.firstPostTypeName')[0]
            item['num'] = jsonpath(data, '$.recruitNum')[0]
            item['education'] = jsonpath(data, '$.reqEducationName')[0]
            item['ask'] = jsonpath(data, '$.requirement')[0]
            print(item['name'])
            yield item

        # # 模拟翻页
        # if not jsonpath(jsons, '$..lastPage')[0]:
        #     self.page += 1
        #     payload = {
        #         'currentPage': self.page,
        #         'pageSize': '10'
        #     }
        #     yield scrapy.Request(
        #         url=self.start_urls[0],
        #         callback=self.parse,
        #         method='POST',
        #         body=json.dumps(payload),
        #         headers={
        #             'User_Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"}
        #     )

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一轮明月照丘壑 2024-09-18 19:31
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

从你给出的日志和代码来看，使用Scrapy爬取网易社会招聘数据遇到502 Bad Gateway错误。当你换成requests库尝试时却能够成功。下面我们来分析可能的原因及解决方案：

Scrapy与requests处理机制不同：Scrapy是一个基于Twisted的网络爬虫框架，它有自己的请求处理机制和中间件系统。而requests库是一个简单的HTTP客户端库，用于发送HTTP请求。在某些情况下，Scrapy可能无法正确处理某些网站的反爬机制，而requests可以。但是基于你的描述，应该是大部分网站都能够正确处理Scrapy请求，只是在特定的网易API接口上出现这个问题。
可能的解决方法：首先确认是否所有参数设置都正确。确认headers、cookies和其他请求参数与requests请求的完全相同。有时候网站的服务器可能针对某些特定的User-Agent或者请求头进行了限制。另外，尝试调整Scrapy的请求超时设置，有时候服务器响应超时也可能导致这种错误。

针对你的代码和日志信息，我给出以下建议：

确保所有的请求头（headers）和Cookie都正确无误，并且与requests请求的一致。
检查是否所有的POST参数都正确无误地发送了。你可以尝试在Scrapy的请求中使用print(response.body)来查看实际发送的请求体是否正确。
检查Scrapy的中间件设置，确保没有中间件干扰请求过程。特别是重试中间件和代理中间件。
检查你的Scrapy版本是否是最新的，有时候升级到最新的版本可能解决问题。
由于涉及到AJAX异步加载的内容，确保Scrapy能够正确处理这种情况。有时候可能需要使用Splash或者Selenium等工具来模拟浏览器行为。

如果以上方法都不能解决问题，建议查看网易的API文档或者联系他们的技术支持来获取帮助，了解是否有特定的反爬策略或限制。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy框架+formdata+ajax爬取及翻页问题 python 数据挖掘测试用例
2020-03-25 14:18

回答 1 已采纳 def parse(self, response): result = eval(response.body.decode('utf-8')) 兄弟，你打印一下resu
利用scrapy如何爬取图表中的数据 python 其他有问必答
2021-07-07 23:48

回答 1 已采纳 scrapy得出的响应内容是在network的doc里面，如图如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
python爬虫框架scrapy实战之爬取京东商城进阶篇
2020-09-21 08:52

【Python Scrapy 框架爬取京东商城进阶篇】在Python的Web爬虫领域，Scrapy是一个功能强大的框架，常被用于高效地爬取和处理网站数据。本篇文章将深入探讨如何使用Scrapy爬取京东商城的商品信息，特别关注动态加载...
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
python爬虫scrapy框架爬取网页数据_Python爬虫框架：scrapy爬取知乎数据
2020-11-21 03:28

weixin_39949584的博客环境需求基础环境沿用之前的环境，只是增加了MongoDB...测试爬虫效果我这里先写一个简单的爬虫，爬取用户的关注人数和粉丝数，代码如下：import scrapyclass ZhuHuSpider(scrapy.Spider):"""知乎爬虫"""name = 'z...
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
Python网络爬虫数据采集实战：Scrapy框架爬取QQ音乐存入MongoDB
2020-03-18 12:09

大数据之眸的博客通过前七章的学习，相信大家对整个爬虫有了一个比较全貌的了解，其中分别涉及四个案例：静态网页爬取、动态Ajax网页爬取、Selenium浏览器模拟爬取和Fillder今日头条app爬取，基本涵盖了爬虫的大致套路。...
如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
scrapy模拟ajax的post请求，爬取动态异步网页
2019-01-22 14:40

harry5508的博客但是一些简单的动态页面比如翻页等动态异步就不用大动干戈的使用Selenium等测试工具框架模拟浏览器执行js操作，直接发送post请求即可。下面介绍中基协的异步翻页爬取：创建爬虫不再赘述。一、页面分析 1.首先...
Scrapy框架爬取豆瓣电影top250信息
2020-12-05 12:00

Sitin涛哥的博客运行结果如下：三、处理数据用scrapy框架爬取电影信息时，支持异步、并发，爬取效率很高，但输出到 CSV 文件里列名并没有按照 item 赋值时的顺序，每行的电影信息页没有按照排名排序，将数据处理一下并重新保存到...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月18日

悬赏问题

¥15 用verilog实现tanh函数和softplus函数
¥15 求京东批量付款能替代天诚
¥15 slaris 系统断电后，重新开机后一直自动重启
¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
¥15 关于vue2中methods使用call修改this指向的问题
¥15 idea自动补全键位冲突
¥15 请教一下写代码，代码好难
¥15 iis10中如何阻止别人网站重定向到我的网站
¥15 滑块验证码移动速度不一致问题
¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含

使用scrapy框架爬取网易社会招聘数据（ajax异步），如果换成requests爬取能成功，为什么scarpy显示502

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新