爬虫爬取1688返回response成功但是内容为空？

今天尝试写了一个爬取1688商品页的爬虫，发现1688的代码已经不同于几年前了，前台的页面html代码居然是通过js请求返回json数据中的值解析而来，整个动态加载的html被全部封装。在网页前台浏览的时候也能明显感觉到，整个商品页不是全部一次加载完成，随着鼠标的下滑进行动态加载，直至翻页出现。找了一下网上的爬取代码，不是代码太旧就是使用selenium，因此我尝试从解析js角度来看看能否爬到数据。
我搜索的关键词为：大理石餐盘，访问的url为:https://s.1688.com/selloffer/offer_search.htm?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&n=y&netType=1%2C11&spm=a260k.635.3262836.d102
通过抓包可以发现实际上每个页面的动态加载通过如下的js文件加载：
图片说明

同时可以看到头部信息为：
图片说明

因此我编写了代码来请求此url，想要获取其中的数据
通过分析url，我发现其实只有几个关键的参数在发生作用，我修改了url如下：
https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true
将比较关键的参数罗列：keywords,beginpage ,startindex(本页中以0.20.40循环)，templateconfigname,async,enableasync
从页面请求的结果如下
https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true
图片说明

依据上面的分析我编写了代码：

 '''
    得到单页商品信息
    '''
    try:
        print('正在爬取第%d页' % page)

        for startindex in range(0, 2):
          proxy = get_proxy()
          url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp'
          data = {
            'keywords': KEYWORD,  # 搜索关键词,
            'beginpage': str(page),  # 页数
            'templateConfigName': TemplateConfigName,
            'startIndex':  str(startindex*20),
            'async': 'true',
            'enableAsync': 'true'
               }
          headers = {
            'User_Agent': random.choice(USER_AGENT),
            'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote(
                KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985',
            'Cookie': COOKIE,
            }
          proxies = {"http": "http://{}".format(proxy)}
          response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5)
          time.sleep(1)
          if response.status_code == 200:
               print(response.text)
               data = response.json()
               get_info(data=data)
    except Exception as e:
           print(e.args)
           print('出现异常，重新爬取第%d页' % page)
           return get_one_page(page)

其中请求头是参照抓包的请求头进行了伪装，user_agent使用了随机代理池中的代理。
ip应用了代理池中的代理进行切换, 测试代码发现虽然返回成功，但是内容为空：
测试代码的结果如下：

正在爬取第1页_
({
"hasError":false,
"message":"success",
"content":{
 "offerResult":{
"html":""
 },

"beaconP4Pid":"1552531611011186199615",

"tracerId":"1191031861991552531610953000954",

"end":0

}
})

很明显服务器判断出来我是机器人，我检查了一下cookies还有ip以及header都没有问题
使用同样的参数在浏览器页面请求也能访问正常的结果，因此我决定增加更多的参数，也许是因为服务器
端验证会检测某个参数是否存在来判断请求来自机器人还是真正的用户，我将代码修改如下：

def get_one_page(page):
    '''
    得到单页商品信息
    '''
    try:
        print('正在爬取第%d页' % page)

        for startindex in range(0, 2):
          proxy = get_proxy()
          url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp'
          data = {
            'keywords': KEYWORD,  # 搜索关键词,
            'beginpage': str(page),  # 页数
            'templateConfigName': TemplateConfigName,
            'startIndex':  str(startindex*20),
            'async': 'true',
            'enableAsync': 'true',
            'rpcflag': 'new',
            '_pageName_': 'market',
            'offset': str(9),
            'pageSize': str(60),
            'asyncCount': str(20),
            'n': 'y',
            'netType': '1%2C11',
            'uniqfield': 'pic_tag_id',
            'qrwRedirectEnabled': 'false',
            'filterP4pIds': '550656542618%2C554434844511%2C574540124248%2C568185683625%2C567623615791%2C536778930216%2C577066747130%2C555894336804',
            'leftP4PIds': '',
            'pageOffset': str(3)
               }
          headers = {
            'User_Agent': random.choice(USER_AGENT),
            'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote(
                KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985',
            'Cookie': COOKIE,
            }
          proxies = {"http": "http://{}".format(proxy)}
          response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5)
          time.sleep(1)
          if response.status_code == 200:
               print(response.text)
               data = response.json()
               get_info(data=data)
    except Exception as e:
           print(e.args)
           print('出现异常，重新爬取第%d页' % page)
           return get_one_page(page)

测试的结果如下：

正在爬取第1页
({
"hasError":false,
"message":"success",
"content":{
 "offerResult":{
"html":"  \n   \n <!-- 为打点计算 offerindex 值-->\n      \n \n <!-- 用于异步请求 -->\n   \n\n   <div id=\"sm-maindata-script\">\n <script type=\"text\/javascript\">\n var coaseParam = {\n   \'isCoaseOut\':true\n   };\n <\/script>\n   <script type=\"text\/javascript\">\n var rightP4P = {\n industryTagPath:\'\',\n leftP4PId:\'\',\n leftP4PLoginId:\'\',\n biaowangId:\'\'\n };\n var rightP4Poffer =[\n   ];\n<\/script>\n   <\/div>\n \n\n"
 },

"beaconP4Pid":"1552532048109186199394",

"tracerId":"1191031861991552532048084000548",

"end":0

}
})

很遗憾结果并不理想，仍旧没有办法获得真正的数据。
我分析了还没有被我列进去的参数，因为无法寻找到其规律所以就没有加上去。
难道1688现在已经做到了，机器人无法爬的地步了吗，到底应该如何解决呢。有没有大神能够指点一下：
另外我同样的测试了一下1688的热销市场，同样的方式，没有问题可以爬取到js的内容，只不过数据是直接封装在json返回值中的，不是通过html代码二次封装。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_20956925 2019-03-14 17:11
关注
web应用使用动态JS异步加载数据防爬，已成趋势，
靠破解js抓取数据成本太高，可以尝试selenium驱动浏览器方式解决这个问题，
缺点是对硬件资源消耗较大，如果抓取量不大的，可以选择

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

正则表达式返回结果为空列表，请问怎么解决？ python 爬虫
2022-08-05 10:54

回答 3 已采纳 import requests import re headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK
python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
爬虫关于xpath在代码中返回为空的问题_美剧天堂电影爬取的案例 python 有问必答
2021-05-13 22:48

回答 3 已采纳少了一个空格，没有选中li元素
python爬取数据返回空列表_Python用xpath爬取数据返回空列表解决
2020-11-29 14:04

weixin_39918043的博客笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段前言：首先需要查看该网页是否可以爬取，通过在URL后加入/robots,txt可以查看。①tbody问题笔者通过谷歌浏览器选取上图...
用PYTHON 的 requests库请求一个post 状态码是200，但是返回内容是空 javascript python 爬虫
2022-07-16 17:00

回答 5 已采纳 body中的data参数是用urlencoded形式传过去的，用urlencode处理一下 import requests from urllib.parse import urlencode i
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
爬虫显示成功，但是保存的json文件里都是none，如何解决呢？ html python 爬虫
2022-06-24 16:12

回答 3 已采纳看你自己输出的日志2022-06-24 16:02:42,409 - INFO: get detail data {'cover': None, 'name': None, 'categories':
Python用xpath爬取数据返回空列表解决
2018-12-08 16:20

SL_World的博客笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段 ①tbody问题 URL:2018AAAI的第一篇论文元数据页面页面如下：笔者通过谷歌浏览器选取上图红框内容的xpath如下...
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
关于爬虫爬取页数的问题 json python 爬虫
2022-09-14 23:27

回答 2 已采纳 import requests import re import json import time fh = open('测试写入.txt', 'a') for i in range(1, 20,
Python爬虫爬取智联招聘（进阶版）_爬虫智行
2024-04-29 13:15

2401_84692429的博客但是此时的工资为字符串，为了方便统计，我们将其转换成整形: salaries = [] sal = read_csv_column(csv_filename, 3) # 撇除第一项，并转换成整形，生成新的列表 for i in range(len(sal) - 1): # 工资为’0’的...
爬虫爬取时名称无法变换 python 爬虫
2022-04-24 21:15

回答 1 已采纳 import os import datetime name_list=os.path.splitext(dic['name']) name_list="".join([name_list[0],'_
Python爬虫requests返回值为空的解决方案
2023-05-24 07:45

爱编程的喵喵的博客本文主要介绍了requests返回值为空的解决方案，希望能对学习爬虫的同学们有所帮助。需要说明的是，该方案适合无需进行登录账户等其他操作就能通过浏览器看到网站内容的情况，而不适用更加复杂的场景。文章目录 1....
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
2021-11-02 10:09

Mr.Winter`的博客我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章写在前面项目总述数据爬取获得服务器API程序总体设计用户名爬取文章爬取数据分析数据存储总体数据可视化数据分组完整代码写在前面最近系统地学习了...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）
¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。

爬虫爬取1688返回response成功但是内容为空？

2条回答 默认 最新

悬赏问题

2条回答默认最新