python爬虫爬取jsonp请求的响应数据怎么获取

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小P聊技术 2021-05-22 22:34
关注
这里我们以爬取淘宝评论为例子讲解一下如何去做到的。

这里主要分为了四步：

一获取淘宝评论时，ajax请求链接（url）

二获取该ajax请求返回的json数据

三使用python解析json数据

四保存解析的结果

步骤一：

获取淘宝评论时，ajax请求链接（url）这里我使用的是Chrome浏览器来完成的。打开淘宝链接，在搜索框中搜索一个商品，比如“鞋子”，这里我们选择第一项商品。

然后跳转到了一个新的网页中。在这里由于我们需要爬取用户的评论，所以我们点击累计评价。

然后我们就可以看到用户对该商品的评价了，这时我们在网页中右击选择审查元素（或者直接使用F12打开）并且选中Network选项，如图所示：

我们在用户评论中，翻到底部点击下一页或者第二页，我们在Network中看到动态添加了几项，我们选择开头为list_detail_rate.htm?itemId=35648967399的一项。

然后点击该选项，我们可以在右边选项框中看到有关该链接的信息，我们要复制Request URL中的链接内容。

我们在浏览器的地址栏中输入刚才我们获得url链接，打开后我们会发现页面返回的是我们所需要的数据，不过显得很乱，因为这是json数据。

二获取该ajax请求返回的json数据

下一步，我们就要获取url中的json数据了。我所使用的python编辑器是pycharm，下面看一下python代码：

# -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') import requests url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399&spuId=226460655&sellerId=1809124267ℴ=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3D&isg=82B6A3A1ED52A6996BCA2111C9DAAEE6&_ksTS=1440490222698_2142&callback=jsonp2143' #这里的url比较长 content=requests.get(url).content

print content #打印出来的内容就是我们之前在网页中获取到的json数据。包括用户的评论。

这里的content就是我们所需要的json数据，下一步就需要我们解析这些个json数据了。

三使用python解析json数据

# -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import json import re url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399&spuId=226460655&sellerId=1809124267ℴ=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3D&isg=82B6A3A1ED52A6996BCA2111C9DAAEE6&_ksTS=1440490222698_2142&callback=jsonp2143' cont=requests.get(url).content rex=re.compile(r'\w+[(]{1}(.*)[)]{1}') content=rex.findall(cont)[0] con=json.loads(content,"gbk") count=len(con['rateDetail']['rateList']) for i in xrange(count): print con['rateDetail']['rateList'][i]['appendComment']['content']

解析：

这里需要导入所要的包，re为正则表达式需要的包，解析json数据需要import json

cont=requests.get(url).content #获取网页中json数据

rex=re.compile(r'\w+[(]{1}(.*)[)]{1}') #正则表达式去除cont数据中多余的部分，是数据成为真正的json格式的数据{“a”:”b”,”c”:”d”}

con=json.loads(content,”gbk”) 使用json的loads函数将content内容转化为json库函数可以处理的数据格式，”gbk”为数据的编码方式，由于win系统默认为gbk
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取jsonp_python 爬取 jsonp 请求的响应数据
2021-02-04 05:41

weixin_39706367的博客 jsonp 是为了解决跨域问题而诞生出的解决方案。...服务端接受到请求之后，收集对应参数所需要的数据，并加上之前传过来的callback 方法名，包装成一个内容为 js文件的响应。客户端再对这个伪js方法进行解析...
python 爬取 jsonp 请求的响应数据
2020-06-18 23:50

平凡之路漫漫的博客服务端接受到请求之后，收集对应参数所需要的数据，并加上之前传过来的callback 方法名，包装成一个内容为 js文件的响应。客户端再对这个伪js方法进行解析。示例：以...
python爬虫爬取某网站的商品信息
2025-05-12 14:22

盒先生的博客加密参数，每一次请求的加密参数都是不同的，逆向解密加密参数，分析加密参数是如何生成的。...eE : 是一个时间戳可以通过time模块获取。ep.data : 查询参数中的data。模拟伪装不够（请求头参数添加不全）
Python爬取股票数据[项目源码]
2025-11-13 07:15

整体来看，Python爬取股票数据的实战项目，不仅包括了爬虫开发的方方面面，还涵盖了数据处理和存储的知识点。这个项目不仅能够帮助初学者建立起完整的爬虫开发思路，还能提供实际操作的经验，为深入研究其他类型数据...
Python爬取数据并实现可视化代码解析
2020-09-16 10:09

首先，Python提供了多种库来实现数据爬取，如BeautifulSoup、Scrapy等，但在这里我们主要关注的是使用requests库来获取网络数据。requests库允许开发者发送HTTP请求，如GET和POST，来获取网页内容。在文件2中，可以...
Python爬虫爬取动态页面思路+实例（一）
2016-12-21 17:48

孔天逸的博客简介有时候，我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现，我们要提取的网页元素并不在我们下载到的HTML之中，尽管它们在浏览器里看起来唾手可得。这说明我们想要的元素是在我们的...分析页面请求（这篇
使用Python爬虫抓取与解析JSON数据：全面教程与代码实例
2025-01-20 11:01

Python爬虫项目的博客爬虫是一种自动化程序，它通过模拟用户...在抓取JSON数据时，爬虫不仅仅需要获取网页内容，还需要能够理解和解析JSON格式的数据。JSON数据通常通过API接口返回，爬虫需要通过HTTP请求抓取接口返回的数据，并进行解析。
Python爬虫实战：基于Scrapy+Playwright动态爬取上海证券交易所数据
2025-07-14 00:59

Python爬虫项目的博客本文将详细介绍如何使用Python最新技术栈（Scrapy框架结合Playwright）来构建一个高效、稳定的上海证券交易所数据爬虫。python复制下载# items.pycode = scrapy.Field() # 股票代码name = scrapy.Field() # 公司名称...
Python爬虫教程：抓取Bilibili视频弹幕与评论
2025-05-10 11:52

Python爬虫项目的博客本文详细介绍了如何使用Python爬虫技术抓取Bilibili视频的弹幕与评论数据，包括如何解析API返回的数据、如何应对反爬虫机制、如何将数据存储为CSV文件等。希望这篇博客能为你提供一些有价值的参考，帮助你进行数据...
Python爬虫实战：利用最新技术高效获取百度地图POI数据
2025-07-30 13:53

Python爬虫项目的博客本文将详细介绍如何使用Python爬虫技术获取百度地图POI(Point of Interest)数据。我们将从POI数据的应用场景开始，逐步讲解爬虫开发的全过程，包括环境准备、API使用、反爬策略应对、数据存储与优化等。文章将提供...
没有解决我的问题, 去提问

python爬虫爬取jsonp请求的响应数据怎么获取

1条回答 默认 最新

1条回答默认最新