Anciewal 2018-10-30 10:06 采纳率: 100%
浏览 5427
已采纳

python3 爬虫爬取不规则、带有转义符的json字符串,json.loads()报错

今天学习写爬虫,利用正则表达式爬取的一段网页源代码,代码前面有json.parse
图片说明

利用正则表达式把gallery一行爬出来是下面的代码:
{\"count\":8,\"sub_images\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\",\"width\":1080,\"url_list\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb1.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"}],\"uri\":\"origin\/pgc-image\/154088560091068452d3c58\",\"height\":1918},{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\",\"width\":690,\"url_list\":[{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb9.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"}],\"uri\":\"origin\/
...........

将其json.loads()之后报错如下:
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

网上试了HTMLParse,结果后面循环报错,解决不了了。哈哈哈,

有没有大神知道这种情况,怎么处理么?

  • 写回答

1条回答 默认 最新

  • devmiao 2018-10-30 11:25
    关注
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作