求助，python 解析爬取的网页源码中的json部分

爬下来的网页源码有一部分是这样的 :

中间那一部分是json吧？要怎么才能解析成像浏览器那样的好继续抓取所要的信息？
说部分是因为有另外一些是正常的html，就中间这一部分想要的信息就这样两行超级长的延伸。。。也使用过json.load()来解析，不想显示错误“没有可以解析的json对象”。
这两行中还有一部分“}\u0026nick\u003d${nick}\u0026rn\u003d${rn}\u0026stats...”应该是unicode的编码，也不知道要怎么办。。

我是想要从淘宝上爬些衣服的图片下来，从首页开始，爬出其中分页的链接，然后拿到分页的源码后要解析出图片的url时出的问题。

下面是部分代码：

url = 'https://www.taobao.com'
header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/601.4.4 (KHTML, like Gecko) Version/9.0.3 Safari/601.4.4'}
cookie = {"cookies":'mt="ci=10_1";uc1="cookie14=UoWyia%2Bf0iS5lw%3D%3D&cookie16=VT5L2FSpNgq6fDudInPRgavC%2BQ%3D%3D&existShop=false&cookie21=U%2BGCWk%2F7pY%2FF&tag=7&cookie15=UIHiLt3xD8xYTw%3D%3D&pas=0"'}
html = requests.get(url)
#解析html,xml转义字符
html_parser = HTMLParser.HTMLParser()
text = html_parser.unescape(html.text)

soup = BeautifulSoup(html.text)

#用xpath来提取链接,如"打底羊毛衫"这个类别
selector = etree.HTML(text)
sub_url = selector.xpath('//*[@id="J_Top"]/div/div[1]/div/div/div/div[3]/div[1]/div/div/div[1]/a[1]/@href')
print sub_url[0]
sub_html = requests.get(sub_url[0])
sub_text = html_parser.unescape(sub_html.text)

soup = BeautifulSoup(sub_html.text,"lxml")

print soup.prettify()

print sub_text

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ablackdog 2016-03-11 13:59
关注
sum:
其实方法一直就在那，只是自己懒，怕麻烦不去尝试。。。。
上面知道是json又不敢确定的时候，只用了json.load(html.text)尝试，提示没有json object就一直再乱搜，其实也知道有一部分不是json,只有只要信息的那一部分是json,应该按一开始的想法截取出来再解析。不要怕麻烦，不要懒－－！

将是json部分解析出来：
想要一次截取到准确要的部分比较难->观察是在一个标签里的->先把所有的被这个标签包围的部分findall->找出是是json的部分->只要其中一部分，但re要选取刚好这一部分困难->取前取尾,再把尾补上->
ontent = re.findall('g_page_config = (.*)"map":{}};',s[2],re.S)
js = content[0] + '"map":{}}'
->截出来后对里面的unicode编码非常苦恼，一直死磕，其实不必，应该先分析这个dict的结构（可以打印这个dict来分析里面到底有几个元素，当然要先把json解析为dict）:
import json
jsdata = json.loads(js)
->一层一层打印分析哪个元素里是包含图片地址的->最后是一个list->找出jpg地址->下载

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python-爬虫爬取veryins网页2.0版
2020-04-07 19:17

jjerrr的博客 # -*- coding=utf-8 -*- import datetime,bs4,time,requests,json,pymysql def db_exe(sql,judge): num = 1 if judge == 'find': while True: if num > 5: return...
【python爬虫简单案例】通过接口爬取猫眼全国电影院信息
2019-07-06 12:12

马丁陈的博客之前一直想了解一下python的爬虫功能，决定从github上开始学习。...基本思路就是很明确了，爬取城市JSON信息解析→爬取各城市JSON电影院信息解析→存储到sqlite数据库中。因为我本身做qt开发，决...
python怎么重复执行代码_python scrapy重复执行实现代码详解
2020-12-20 09:10

weixin_39634876的博客 python scrapy重复执行实现代码详解这篇文章主要介绍了python scrapy重复执行实现代码详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下Scrapy是一个为了爬取...
只要你想学Python，跟着这份计划走，没成效你打我
2024-07-23 17:58

Python子木_的博客 Python之所以热门，主要原因是应用广泛，无论是想做网站开发、数据分析、机器学习，还是游戏制作都可以使用Python实现。另外还有不少人学习Python是为了工作效率。但是Python知识点也很多，如果没有一个清晰的学习...
爬虫求助之同一url在window正常爬取，到Linux上却返回403
2019-09-17 16:39

cqbibibi的博客爬虫求助之同一url在window正常爬取，到Linux上却返回403 源码 import requests headers = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US; rv:1.0.1) Gecko/20021104 Chimera/0.6’, } url = ...
用scrapy框架爬取拉勾网招聘信息
2020-07-14 13:53

编程歆妍的博客本文实例为爬取拉勾网上的如职位名, 薪资, 公司名称相关python的职位信息。分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏可以看到搜索结果页的url为: '...
python基金预测分析_使用python获取国自然基金列表，预测一下大佬们将要发啥文章...
2020-12-06 13:46

weixin_39920338的博客作者：ahworld链接：python爬取国自然基金看看大佬们将要发啥文章
django老年人社区健康互助平台_my63z30q
2026-01-08 13:39

计算机专业源码的博客平台整合健康监测、社区互动、紧急求助等功能，帮助老年人提升生活质量并增强社区归属感。本次研究将达到的毕业课程设计系统主要有以下主要流程：数据收集：使用Python语言,现成的爬虫框架和工具包降低了使用门槛,...
Hitokoto-Spider 一言库爬虫开发日记
2020-02-12 17:55

GamerNoTitle的博客可以看到下面这个表格（为了方便，我直接把源码拿过来了）时间影响Api 调整 2018年6月之前旧版API（http://api.hitokoto.cn和https://sslapi.hitokoto.cn）旧版API将在6月份之前以切换解析的方式合并到v1API中。...
年薪20万Python工程师进阶（7）：Python资源大全，让你相见恨晚的Python库
2019-09-22 03:54

agg7911的博客我是环境管理管理 Python 版本和环境的工具 ...Vex – 可以在虚拟环境中执行命令。 virtualenv – 创建独立 Python 环境的工具。 virtualenvwrapper– virtualenv 的一组扩展...
没有解决我的问题, 去提问

求助，python 解析爬取的网页源码中的json部分

soup = BeautifulSoup(html.text)

soup = BeautifulSoup(sub_html.text,"lxml")

print soup.prettify()

2条回答 默认 最新

2条回答默认最新