python爬虫爬取jsonp请求的响应数据怎么获取

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小P聊技术 2021-05-22 22:34
关注
这里我们以爬取淘宝评论为例子讲解一下如何去做到的。

这里主要分为了四步：

一获取淘宝评论时，ajax请求链接（url）

二获取该ajax请求返回的json数据

三使用python解析json数据

四保存解析的结果

步骤一：

获取淘宝评论时，ajax请求链接（url）这里我使用的是Chrome浏览器来完成的。打开淘宝链接，在搜索框中搜索一个商品，比如“鞋子”，这里我们选择第一项商品。

然后跳转到了一个新的网页中。在这里由于我们需要爬取用户的评论，所以我们点击累计评价。

然后我们就可以看到用户对该商品的评价了，这时我们在网页中右击选择审查元素（或者直接使用F12打开）并且选中Network选项，如图所示：

我们在用户评论中，翻到底部点击下一页或者第二页，我们在Network中看到动态添加了几项，我们选择开头为list_detail_rate.htm?itemId=35648967399的一项。

然后点击该选项，我们可以在右边选项框中看到有关该链接的信息，我们要复制Request URL中的链接内容。

我们在浏览器的地址栏中输入刚才我们获得url链接，打开后我们会发现页面返回的是我们所需要的数据，不过显得很乱，因为这是json数据。

二获取该ajax请求返回的json数据

下一步，我们就要获取url中的json数据了。我所使用的python编辑器是pycharm，下面看一下python代码：

# -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') import requests url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399&spuId=226460655&sellerId=1809124267ℴ=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3D&isg=82B6A3A1ED52A6996BCA2111C9DAAEE6&_ksTS=1440490222698_2142&callback=jsonp2143' #这里的url比较长 content=requests.get(url).content

print content #打印出来的内容就是我们之前在网页中获取到的json数据。包括用户的评论。

这里的content就是我们所需要的json数据，下一步就需要我们解析这些个json数据了。

三使用python解析json数据

# -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import json import re url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399&spuId=226460655&sellerId=1809124267ℴ=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3D&isg=82B6A3A1ED52A6996BCA2111C9DAAEE6&_ksTS=1440490222698_2142&callback=jsonp2143' cont=requests.get(url).content rex=re.compile(r'\w+[(]{1}(.*)[)]{1}') content=rex.findall(cont)[0] con=json.loads(content,"gbk") count=len(con['rateDetail']['rateList']) for i in xrange(count): print con['rateDetail']['rateList'][i]['appendComment']['content']

解析：

这里需要导入所要的包，re为正则表达式需要的包，解析json数据需要import json

cont=requests.get(url).content #获取网页中json数据

rex=re.compile(r'\w+[(]{1}(.*)[)]{1}') #正则表达式去除cont数据中多余的部分，是数据成为真正的json格式的数据{“a”:”b”,”c”:”d”}

con=json.loads(content,”gbk”) 使用json的loads函数将content内容转化为json库函数可以处理的数据格式，”gbk”为数据的编码方式，由于win系统默认为gbk
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python爬虫报错，jsonp python 有问必答
2021-06-25 09:46

回答 3 已采纳参数callback去掉 import requests import json headers = {'Host': 'xyq.cbg.163.com', 'Refere
如何利用Python程序对爬取的数据进行数据清洗和整理 python
2022-08-09 15:43

回答 1 已采纳 # -*- coding: UTF-8 -*- """ @项目名称：如何利用Python程序对爬取的数据进行数据清洗和整理_7769899.py @作者：陆地起飞全靠浪 @创建日期：2022
python爬取jsonp_python 爬取 jsonp 请求的响应数据
2021-02-04 05:41

weixin_39706367的博客 jsonp 是为了解决跨域问题而诞生出的解决方案。...服务端接受到请求之后，收集对应参数所需要的数据，并加上之前传过来的callback 方法名，包装成一个内容为 js文件的响应。客户端再对这个伪js方法进行解析...
用python语言整理json格式的数据 json python 爬虫
2023-04-03 22:58

回答 3 已采纳也可以考虑正则匹配 import re import json s = ''' jsonp109({ "returnCode": "0", "returnValue": { "A":
在用python进行上交所爬虫时遇到这样的问题，请问需要怎么解决 json python 有问必答爬虫
2021-11-05 22:54

回答 2 已采纳检查代码中第30行json_str，存在json无法解析的数据，参考一下json.loads的数据结构类似于：jsonData = '{"a":1,"b":2,"c":3,"d":4,"e":5}'
python爬取需要登陆的网站的url应该是哪个？ python
2021-08-06 11:29

回答 1 已采纳 cookie目的就是为了保存登录状态，即基于cookie模拟登录，headers中带上了cookie就是相当于在登录状态请求页面了，所以直接请求登录后要请求的页面即可。
python 爬取 jsonp 请求的响应数据
2020-06-18 23:50

平凡之路漫漫的博客服务端接受到请求之后，收集对应参数所需要的数据，并加上之前传过来的callback 方法名，包装成一个内容为 js文件的响应。客户端再对这个伪js方法进行解析。示例：以...
python爬取网页内容时，没有报错，也有文件出来，但是啥也没爬到T_T这是为啥 python 爬虫
2021-11-21 13:55

回答 2 已采纳先看下返回的Response里是啥内容
模拟淘宝请求从淘宝接口获取到的json数据如何解析sku javascript php python
2021-11-11 17:38

回答 3 已采纳淘宝返回的数据是jsonp，需要替换下回调的相关信息后，用json_deocde转对象后遍历添加价格到库存里面。前面的一串数字键名称对应什么待研究。。先贴出来 <meta charset="u
python代码不是很理解 javascript python
2022-05-04 10:03

回答 1 已采纳我对比了一下两段代码的参数，不能说完全不一样吧，大部分参数都不一样，不是说参数值不一样，而是参数key都不一样，一个能运行，另一个不能运行我觉得也不奇怪吧，你需要先确认你传的参数项是否正确
Python爬虫爬取动态页面思路+实例（一）
2016-12-21 17:48

孔天逸的博客简介有时候，我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现，我们要提取的网页元素并不在我们下载到的HTML之中，尽管它们在浏览器里看起来唾手可得。这说明我们想要的元素是在我们的...分析页面请求（这篇
如何在vue中获取Jsonp数据？ javascript json vue.js
2021-10-07 21:29

回答 1 已采纳 <template> <div> </div> </template> <script> import { jsonp } fro
Python爬虫基础之如何对爬取到的数据进行解析
2023-04-13 17:36

大Null的博客承接上文，讲解如何用Xpath、JsonPath、BeautifulSoup三种方式对爬到的数据进行解析。
Python爬虫--爬取淘宝热卖demo,最后保存数据到excel,根据输入开始页码结束页码爬取
2023-08-23 18:04

执着的风声的博客 2、按F12 打开网络(network)，查找到对应包含页面数据的js，可点击预览和响应查看返回的数据格式，检查返回的数据是否与页面一致。4、代码开发，运行后输入起始和结束页码，可爬取数据到excel。注2：此爬虫使用...
没有解决我的问题, 去提问

悬赏问题

¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：

python爬虫爬取jsonp请求的响应数据怎么获取

1条回答 默认 最新

悬赏问题

1条回答默认最新