爬虫爬取1688返回response成功但是内容为空？

今天尝试写了一个爬取1688商品页的爬虫，发现1688的代码已经不同于几年前了，前台的页面html代码居然是通过js请求返回json数据中的值解析而来，整个动态加载的html被全部封装。在网页前台浏览的时候也能明显感觉到，整个商品页不是全部一次加载完成，随着鼠标的下滑进行动态加载，直至翻页出现。找了一下网上的爬取代码，不是代码太旧就是使用selenium，因此我尝试从解析js角度来看看能否爬到数据。
我搜索的关键词为：大理石餐盘，访问的url为:https://s.1688.com/selloffer/offer_search.htm?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&n=y&netType=1%2C11&spm=a260k.635.3262836.d102
通过抓包可以发现实际上每个页面的动态加载通过如下的js文件加载：
图片说明

同时可以看到头部信息为：
图片说明

因此我编写了代码来请求此url，想要获取其中的数据
通过分析url，我发现其实只有几个关键的参数在发生作用，我修改了url如下：
https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true
将比较关键的参数罗列：keywords,beginpage ,startindex(本页中以0.20.40循环)，templateconfigname,async,enableasync
从页面请求的结果如下
https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true
图片说明

依据上面的分析我编写了代码：

 '''
    得到单页商品信息
    '''
    try:
        print('正在爬取第%d页' % page)

        for startindex in range(0, 2):
          proxy = get_proxy()
          url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp'
          data = {
            'keywords': KEYWORD,  # 搜索关键词,
            'beginpage': str(page),  # 页数
            'templateConfigName': TemplateConfigName,
            'startIndex':  str(startindex*20),
            'async': 'true',
            'enableAsync': 'true'
               }
          headers = {
            'User_Agent': random.choice(USER_AGENT),
            'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote(
                KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985',
            'Cookie': COOKIE,
            }
          proxies = {"http": "http://{}".format(proxy)}
          response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5)
          time.sleep(1)
          if response.status_code == 200:
               print(response.text)
               data = response.json()
               get_info(data=data)
    except Exception as e:
           print(e.args)
           print('出现异常，重新爬取第%d页' % page)
           return get_one_page(page)

其中请求头是参照抓包的请求头进行了伪装，user_agent使用了随机代理池中的代理。
ip应用了代理池中的代理进行切换, 测试代码发现虽然返回成功，但是内容为空：
测试代码的结果如下：

正在爬取第1页_
({
"hasError":false,
"message":"success",
"content":{
 "offerResult":{
"html":""
 },

"beaconP4Pid":"1552531611011186199615",

"tracerId":"1191031861991552531610953000954",

"end":0

}
})

很明显服务器判断出来我是机器人，我检查了一下cookies还有ip以及header都没有问题
使用同样的参数在浏览器页面请求也能访问正常的结果，因此我决定增加更多的参数，也许是因为服务器
端验证会检测某个参数是否存在来判断请求来自机器人还是真正的用户，我将代码修改如下：

def get_one_page(page):
    '''
    得到单页商品信息
    '''
    try:
        print('正在爬取第%d页' % page)

        for startindex in range(0, 2):
          proxy = get_proxy()
          url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp'
          data = {
            'keywords': KEYWORD,  # 搜索关键词,
            'beginpage': str(page),  # 页数
            'templateConfigName': TemplateConfigName,
            'startIndex':  str(startindex*20),
            'async': 'true',
            'enableAsync': 'true',
            'rpcflag': 'new',
            '_pageName_': 'market',
            'offset': str(9),
            'pageSize': str(60),
            'asyncCount': str(20),
            'n': 'y',
            'netType': '1%2C11',
            'uniqfield': 'pic_tag_id',
            'qrwRedirectEnabled': 'false',
            'filterP4pIds': '550656542618%2C554434844511%2C574540124248%2C568185683625%2C567623615791%2C536778930216%2C577066747130%2C555894336804',
            'leftP4PIds': '',
            'pageOffset': str(3)
               }
          headers = {
            'User_Agent': random.choice(USER_AGENT),
            'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote(
                KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985',
            'Cookie': COOKIE,
            }
          proxies = {"http": "http://{}".format(proxy)}
          response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5)
          time.sleep(1)
          if response.status_code == 200:
               print(response.text)
               data = response.json()
               get_info(data=data)
    except Exception as e:
           print(e.args)
           print('出现异常，重新爬取第%d页' % page)
           return get_one_page(page)

测试的结果如下：

正在爬取第1页
({
"hasError":false,
"message":"success",
"content":{
 "offerResult":{
"html":"  \n   \n <!-- 为打点计算 offerindex 值-->\n      \n \n <!-- 用于异步请求 -->\n   \n\n   <div id=\"sm-maindata-script\">\n <script type=\"text\/javascript\">\n var coaseParam = {\n   \'isCoaseOut\':true\n   };\n <\/script>\n   <script type=\"text\/javascript\">\n var rightP4P = {\n industryTagPath:\'\',\n leftP4PId:\'\',\n leftP4PLoginId:\'\',\n biaowangId:\'\'\n };\n var rightP4Poffer =[\n   ];\n<\/script>\n   <\/div>\n \n\n"
 },

"beaconP4Pid":"1552532048109186199394",

"tracerId":"1191031861991552532048084000548",

"end":0

}
})

很遗憾结果并不理想，仍旧没有办法获得真正的数据。
我分析了还没有被我列进去的参数，因为无法寻找到其规律所以就没有加上去。
难道1688现在已经做到了，机器人无法爬的地步了吗，到底应该如何解决呢。有没有大神能够指点一下：
另外我同样的测试了一下1688的热销市场，同样的方式，没有问题可以爬取到js的内容，只不过数据是直接封装在json返回值中的，不是通过html代码二次封装。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_20956925 2019-03-14 17:11
关注
web应用使用动态JS异步加载数据防爬，已成趋势，
靠破解js抓取数据成本太高，可以尝试selenium驱动浏览器方式解决这个问题，
缺点是对硬件资源消耗较大，如果抓取量不大的，可以选择

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

正则表达式返回结果为空列表，请问怎么解决？ python 爬虫
2022-08-05 10:54

回答 3 已采纳 import requests import re headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK
python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
爬虫关于xpath在代码中返回为空的问题_美剧天堂电影爬取的案例 python 有问必答
2021-05-13 22:48

回答 3 已采纳少了一个空格，没有选中li元素
python爬取数据返回空列表_Python用xpath爬取数据返回空列表解决
2020-11-29 14:04

weixin_39918043的博客笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段前言：首先需要查看该网页是否可以爬取，通过在URL后加入/robots,txt可以查看。①tbody问题笔者通过谷歌浏览器选取上图...
用PYTHON 的 requests库请求一个post 状态码是200，但是返回内容是空 javascript python 爬虫
2022-07-16 17:00

回答 5 已采纳 body中的data参数是用urlencoded形式传过去的，用urlencode处理一下 import requests from urllib.parse import urlencode i
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
爬虫显示成功，但是保存的json文件里都是none，如何解决呢？ html python 爬虫
2022-06-24 16:12

回答 3 已采纳看你自己输出的日志2022-06-24 16:02:42,409 - INFO: get detail data {'cover': None, 'name': None, 'categories':
Python用xpath爬取数据返回空列表解决
2018-12-08 16:20

SL_World的博客笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段 ①tbody问题 URL:2018AAAI的第一篇论文元数据页面页面如下：笔者通过谷歌浏览器选取上图红框内容的xpath如下...
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
关于爬虫爬取页数的问题 json python 爬虫
2022-09-14 23:27

回答 2 已采纳 import requests import re import json import time fh = open('测试写入.txt', 'a') for i in range(1, 20,
Python爬虫requests返回值为空的解决方案
2023-05-24 07:45

爱编程的喵喵的博客本文主要介绍了requests返回值为空的解决方案，希望能对学习爬虫的同学们有所帮助。需要说明的是，该方案适合无需进行登录账户等其他操作就能通过浏览器看到网站内容的情况，而不适用更加复杂的场景。文章目录 1....
爬虫爬取时名称无法变换 python 爬虫
2022-04-24 21:15

回答 1 已采纳 import os import datetime name_list=os.path.splitext(dic['name']) name_list="".join([name_list[0],'_
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
2021-11-02 10:09

Mr.Winter`的博客我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章写在前面项目总述数据爬取获得服务器API程序总体设计用户名爬取文章爬取数据分析数据存储总体数据可视化数据分组完整代码写在前面最近系统地学习了...
Python爬虫入门教程！手把手教会你爬取网页数据
2022-07-29 20:05

m0_67401228的博客爬虫就是自动获取网页内容的程序，例如搜索引擎，Google，Baidu等，每天都运行着庞大的爬虫系统，从全世界的网站中爬虫数据，供用户检索时使用。爬虫流程其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤模拟...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 matlab有关常微分方程的问题求解决
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法
¥100 c语言，请帮蒟蒻写一个题的范例作参考