Anciewal 2018-10-30 10:06 采纳率: 100%
浏览 5427
已采纳

python3 爬虫爬取不规则、带有转义符的json字符串,json.loads()报错

今天学习写爬虫,利用正则表达式爬取的一段网页源代码,代码前面有json.parse
图片说明

利用正则表达式把gallery一行爬出来是下面的代码:
{\"count\":8,\"sub_images\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\",\"width\":1080,\"url_list\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb1.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"}],\"uri\":\"origin\/pgc-image\/154088560091068452d3c58\",\"height\":1918},{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\",\"width\":690,\"url_list\":[{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb9.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"}],\"uri\":\"origin\/
...........

将其json.loads()之后报错如下:
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

网上试了HTMLParse,结果后面循环报错,解决不了了。哈哈哈,

有没有大神知道这种情况,怎么处理么?

  • 写回答

1条回答

  • devmiao 2018-10-30 11:25
    关注
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 matlab有关常微分方程的问题求解决
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?
  • ¥100 求三轴之间相互配合画圆以及直线的算法
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考