Anciewal 2018-10-30 10:06 采纳率: 100%
浏览 5427
已采纳

python3 爬虫爬取不规则、带有转义符的json字符串,json.loads()报错

今天学习写爬虫,利用正则表达式爬取的一段网页源代码,代码前面有json.parse
图片说明

利用正则表达式把gallery一行爬出来是下面的代码:
{\"count\":8,\"sub_images\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\",\"width\":1080,\"url_list\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb1.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"}],\"uri\":\"origin\/pgc-image\/154088560091068452d3c58\",\"height\":1918},{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\",\"width\":690,\"url_list\":[{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb9.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"}],\"uri\":\"origin\/
...........

将其json.loads()之后报错如下:
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

网上试了HTMLParse,结果后面循环报错,解决不了了。哈哈哈,

有没有大神知道这种情况,怎么处理么?

  • 写回答

1条回答 默认 最新

  • devmiao 2018-10-30 11:25
    关注
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式
  • ¥30 数值计算均差系数编程
  • ¥15 redis-full-check比较 两个集群的数据出错
  • ¥15 Matlab编程问题
  • ¥15 训练的多模态特征融合模型准确度很低怎么办
  • ¥15 kylin启动报错log4j类冲突
  • ¥15 超声波模块测距控制点灯,灯的闪烁很不稳定,经过调试发现测的距离偏大
  • ¥15 import arcpy出现importing _arcgisscripting 找不到相关程序