python3 爬虫爬取不规则、带有转义符的json字符串,json.loads()报错

今天学习写爬虫,利用正则表达式爬取的一段网页源代码,代码前面有json.parse
图片说明

利用正则表达式把gallery一行爬出来是下面的代码:
{\"count\":8,\"sub_images\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\",\"width\":1080,\"url_list\":[{\"url\":\"http:\/\/p99.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"},{\"url\":\"http:\/\/pb1.pstatp.com\/origin\/pgc-image\/154088560091068452d3c58\"}],\"uri\":\"origin\/pgc-image\/154088560091068452d3c58\",\"height\":1918},{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\",\"width\":690,\"url_list\":[{\"url\":\"http:\/\/p1.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb3.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"},{\"url\":\"http:\/\/pb9.pstatp.com\/origin\/pgc-image\/1540885587029ea96e1c851\"}],\"uri\":\"origin\/
...........

将其json.loads()之后报错如下:
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

网上试了HTMLParse,结果后面循环报错,解决不了了。哈哈哈,

有没有大神知道这种情况,怎么处理么?

1个回答

weixin_43246525
Anciewal 谢谢,按照您的方法,问题解决啦。
11 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python3爬虫爬取图片
Python3爬虫爬取美女图片 最近看完了崔庆才先生的《Python3网络爬虫开发实战》,了解了不少的新知识。现在打算找几个项目练手。但是我也没什么可以爬的,那么就先从美女图开始爬起吧! 以下是基本思路: ...
python3爬虫——爬取糗事百科
python3爬虫——爬取糗事百科 萌新在爬取糗事百科时遇到了许多麻烦,幸好看到了hailofwu:https://blog.csdn.net/xixi880928/article/details/78346728 大佬的文章。 不过大佬写了思路和源码,没写详细基础类容,所以我作些补充,并写上思路,这样看起来更易理解。 请先看大佬的文章后再来,希望这篇文章能帮到你。 def getPage(sel...
Python3爬虫爬取百度贴吧
1.需求分析 为了爬取贴吧中楼主所发表的帖子,并把内容提取出来保存到txt文件中。 2.全部代码 这份代码写的比较早,所以里面提取内容基本上用的全是正则表达式,并没有调用一些非常高级的包。代码如下: # -*- coding:utf-8 -*- import urllib.request import urllib.parse import re class Tools: re...
python3 爬虫插入数据报错
报错: pymysql.err.ProgrammingError: (1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ')' at line 1") 原因: ...
python3爬虫之爬取糗事百科段子
# -*- coding: UTF-8 -*- import urllib.request as urllib2 from time import sleep from bs4 import BeautifulSoup #声明变量且赋值 #循环13次 #小说静态的 #这个url是糗事百科网址 url = 'http://book.zongheng.com/chapter/791751/4485...
python3 爬虫 爬取美女图片
本文基于python3,练手爬取http://www.mm131.com/网站美女图片,对该网站表示感谢,本文仅用于交流学习使用 python3 不同于python2  将urllib\urllib2合并为urllib(官方文档), urllib.request for opening and reading URLsurllib.error containing the ex
python3爬虫之爬取百度图片
先搜一个图片,然后打开控制台,这个图片是动态加载的,没有页数的,所以一直滚动右边的滚动条,就会加载出新的内容,然后双击左下角生成的路径 双击后,出现下面的数据,红框框住的东西就是具体图片的路径 然后看上面生成的路径,一直滚动滚动条生成新的图片后,pn值就会变化. pn的值是当前加载了多少图片,rn是每次加载,加载30张图片,可以自己手动把pn改为1,然后查看一下里面生成的图片就是第一...
Python3爬虫-selenium爬取百度文库
      这是笔者爬取的第一个动态加载的网页,使用的IDE是Pycharm,选择的是百度文库的一篇16年六级卷子的文档。若直接使用requests模块去得到网页源码,会发现所得非所见,不能获取到文档中的内容。看了网上数篇博文的思路,最后还是尝试了使用selenium模块模拟安卓设备使用chrome浏览器访问,这样访问可以获得网页的完整源码。这篇文档默认加载了不到20%,点击“继续阅读”字样,之后...
python3爬虫爬取英语单词到MySQL数据库
前言:我的第一篇博客,本人大一菜鸟一枚,第一次写python的项目,需要大量的数据,第一次接触爬虫这个东西,感觉十分有趣,想以后往这方面发展,特写下自己的爬虫学习经历,希望把自己的学习经历分享给初学者们,也希望各位大佬帮助指正。声明:没有使用多线程,没有使用代理IP,没有使用框架,最简单的一个爬虫爬到死python版本:python3.6使用requests库爬取,使用beautifulsoup库...
python3爬虫爬取百度贴吧下载图片
python3爬虫爬取百度贴吧下载图片 学习爬虫时没事做的小练习。 百度对爬虫还是很友好的,在爬取内容方面还是较为容易。 可以方便各位读者去百度贴吧一键下载每个楼主的图片,至于是什么类型的图片,就看你输入什么关键字了。 使用python模块 使用urllib进行爬取(python3自带不用额外安装) 使用xpath进行数据提取(pip install lxml) from urllib i...
Python3爬虫之爬取网站图片
暑假在家练科三的时候无聊突然想重拾Python,之前简单的学了学Python2的语法,但以后主流是Python3,就下了Python3,pycharm对着别人的教程试了试爬虫,我之前python2的时候爬虫主要用urllib,urllib2这两个,然后是通过正则匹配图片网址,此次python3主要用requests,解析图片网址主要用beautiful soup,几日下来算是可以基本完成爬取图片功...
python3 爬虫--网页图片爬取
数据越来越爆炸的今天,数据的获取显得越为重要,Python爬虫正是简洁高效的数据获取工具。
python3爬虫:爬虫进阶之ajax数据爬取
动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。 获取ajax数据的方式: 直接分析ajax调用...
爬虫基本介绍 && python3 爬虫爬取网易新闻排行榜
爬虫基本介绍 1. 什么是爬虫? 爬虫是请求⽹网站并提取数据的⾃自动化程序 2. 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器器响应。 解析内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页...
某些情况下json.loads报错的问题
这是今日头条上ajax中一个有关于图片信息的变量: gallery: JSON.parse("{\"count\":6,\"sub_images\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origin\\/pgc-image\\/153311418372487f65e2a82\",\"width\":690,\"url_list\":[{
python3爬虫(1)--百度百科的页面爬取
新手起步,准备用写博客的形式记录下自己的学习路程,我用的是python3.5 ,大家互相学习,多多讨论这个对于百度百科的爬取往往作为python爬虫的第一课,慕课上有这个教程的视频(请看这里),博主只是记录一下我的学历历程。对于一些基础不扎实的朋友呢,建议先看一下廖雪峰老师的python课程(传送门),其实博主的基本功也不扎实,在写这段代码的时候有时候也会去看两眼,多练习,多动手就好了言归正传,爬
[Python3爬虫]爬取新浪微博用户信息及微博内容
[Python3爬虫]爬取新浪微博用户信息及微博内容 ### [Python3爬虫]爬取新浪微博用户信息及微博内容 大数据时代,对于研究领域来说,数据已经成为必不可少的一部分。新浪微博作为新时代火爆的新媒体社交平台,拥有许多用户行为及商户数据,因此需要研究人员都想要得到新浪微博数据,But新浪微博数据量极大,获取的最好方法无疑就是使用Python爬虫来得到。网上有一些关于使用Python爬虫来爬取...
爬虫四 Python3 pandas爬取静态表格
ps:本人目前使用pandas的read_html方法只能抓取到静态的表格数据 使用代码: import pandas as pd # 爬取网址 url ='http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=1' # 找到所需爬取的表格 [0]代表取第一个表格 tb = pd.read_html(url)[0] #保...
Python3爬虫-05-爬取腾讯新闻
#coding:utf-8 import requests from bs4 import BeautifulSoup url = "http://news.qq.com/" #请求腾讯新闻的URl,获取其text文本 wbdata = requests.get(url).text #对获取的文本进行解析 soup = BeautifulSoup(wbdata,'lxml') #从解析文件中...
python3 爬虫实战之爬取网易新闻APP端
留坑: 网易新闻类型: {"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}
python3爬虫 —— 爬取丁香园网站的信息
利用BeautifulSoup和lxml两个模块爬取丁香园网站的回复信息 BeautifulSoup实现代码: from bs4 import BeautifulSoup import requests #访问的网址 url = 'http://www.dxy.cn/bbs/thread/626626#626626' #头部信息 headers = { 'user-agent':'Moz...
分享python3爬虫爬取百度上的图片
话不多说,先上代码 import urllib.request import re key="风景图片" keyname=urllib.request.quote(key) url="http://image.so.com/i?src=360pic_strong&z=1&i=0&cmg=1760c80a08bb4de0be404c0d98032520&q="+ke...
[python3]爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件
python3爬虫 —— 爬取豆瓣电影信息
代码: import re,xlwt,requests #初始化并创建一个工作簿 book = xlwt.Workbook() #创建一个名为sheetname的表单 sheet = book.add_sheet('movie') #重复写入数据 headings = [u'排名', u'电影名称',u'导演',u'国家',u'年份',u'评分'] k =0 for j in headings...
Python3爬虫-01-简单网页爬取
''' 宇宙黑客王磊磊 Python3爬虫 简单网页的获取 第一个简单的示例 爬去Hades 官网首页 ''' import sys import urllib.request print(sys.getdefaultencoding()) #网址 url = "http://whl.zujitianya.com" #请求 request = urllib.request.Request(u...
Python爬虫实战——爬取RUNOOB.COM的Python3教程
说明 关于Python开发环境搭建,可参考博主的另一篇博文—Visual Studio 2017搭配OpenCV之Python环境,省去其中的OpenCV配置及安装即可。另外,在做Python爬虫项目时,需要下载一些特定的Python库,在调用模块出错时,在Python环境中添加库路径即可 在本博文中,爬取的url为:http://www.runoob.com/pytho...
python3爬虫爬取网页图片简单示例
   本人也是刚刚开始学习python的爬虫技术,然后本来想在网上找点教程来看看,谁知道一搜索,大部分的都是用python2来写的,新手嘛,一般都喜欢装新版本。于是我也就写一个python3简单的爬虫,爬虫一下贴吧的图片吧。话不多说,我们开始。 首先简单来说说一下知识。 一、什么是爬虫? 网页上面采集数据 二、学习爬虫有什么作用? 做案例分析,做数据分析,分析网页结构....... 三...
Python3爬虫之爬取百度高清图片
#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: OFZFZS # Datetime:2018/3/23 11:00 # Description: 百度图片爬取 这里只做了简单处理,注意百度图片返回的数据是ajax数据, # 每次返回的是30条,但是我只看到普通图片,高清的图片地址好像加密了,所以我这里只取三十张,没有用Ajax. i...
Python3爬虫实战之爬取京东图书图片
假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网络爬虫实现,这类爬虫称为图片爬虫,接下来,我们将实现该爬虫。首先,打开要爬取的第一个网页,这个网页将作为要爬取的起始页面。我们打开京东,选择图书分类,由于图书所有种类的图书有很多,我们选择爬取所有编程语言的图书图片吧,网址为:https://list.jd.com/list.h
Python3 爬虫(三) -- 爬取豆瓣首页图片
前面已经完成了简单网页以及伪装浏览器的学习。下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下。 首先,豆瓣首页部分图片展示 这只是截取的一部分。下面给出,整个爬虫程序。 爬虫程序 这个爬取图片的程序采用伪装浏览器的方式,只不过是加了处理图片的模块。 [python] view plain copy   '''''  批
python3编程08-爬虫实战:爬取网络图片
本篇博客爬取内容如下: 爬取校花网的图片   准备工作: 1.安装python3 2.安装pycharm 3.安装Scrapy,参考:Scrapy安装   cmd命令新建Scrapy工程 1. 在D:\PythonProjects目录下新建出一个名为pycodes的文件夹   2. Win+R 打开cmd命令行,用命令切换到D:\PythonProjects\pycod...
python3爬虫--爬取豆瓣Top250的图书
from lxml import etree import requests import csv fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8') writer = csv.writer(fp) writer.writerow(('name', 'url', 'author', 'publisher', 'date'...
python3爬虫爬取金庸小说所有角色
# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.jinyongwang.com/data/renwu/'; def getHTML(url): r = requests.get(url) return r.content def parseHTML(...
python3爬虫 selenium+pyquery爬取人才网简历实战
不废话,直接贴代码,各位看官要是觉得可以的话,麻烦点个赞~ import requests, pymysql,pyquery,time from bs4 import BeautifulSoup from selenium import webdriver url = ‘https://www.xmrc.com.cn/’ headers = { ‘Cookie’:‘www.xmrc.com.cn=...
Python3 简单爬虫爬取百度贴吧帖子
使用Python3.x的版本 对http://tieba.baidu.com/p/2005436135,该百度贴吧帖子进行爬取操作。 一.使用到的库。 1.   urllib.request   :对链接进行解析,以及图片的保存 参考资料:http://www.jb51.net/article/42630.htm http://www.cnblogs.com/Lands-ljk/p
python3爬虫第一步-爬取网页源码
python3爬虫第一步-爬去网页源码典型的源码百度一下就有了 import urllib.request def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return html html=getHtml(“https://www.cxy61.com/cxyteam/cxyt
python3爬虫(2)--爬取糗事百科页面
在上一个python爬虫爬取百度百科有关python词条的100个页面的例子中,这次我们要爬取的是糗事百科的24小时热门页面的每个段子的内容,点赞数和评论数,对于爬取糗事百科和百度百科的主要不同在于糗事百科需要我们模拟浏览器登陆,普通的登陆并不会返回我们想要的内容,我们一起探讨一下。我们先按照爬取百度百科的方式获取一下糗事百科的页面信息import urllib.requesturl='http:/
python3爬虫之访问量、点击率数据的爬取分析
python3爬虫之访问量、点击率数据的爬取分析 1.明确问题: 通过开发者工具分析我们可以看出,这个点击率并不是‘静态数据’,而是一个脚本返回,那么这个数据到底藏在哪里呢? 经验告诉我,不是Doc 就在Js找,如果还找不到,那很有可能就在XHR(Ajax的一种用法 即异步加载)中了,果不其然,通过查找确定我们要的数据在这里: 2.该怎么取回数据呢? 分析Header: ...
Python3爬虫之urllib携带cookie爬取网页
import urllib.request import urllib.parse url = 'https://weibo.cn/5273088553/info' #正常的方式进行访问 # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like
python3 爬虫 爬取网页图片详解
#导入需要使用的模块 import re from urllib import request,error #爬取网页源代码 url=”https://www.csdn.net/” data=request.urlopen(url).read().decode(“Utf-8”) #通过正则表达式获取.jpg结尾的图片url链接地址 pat=’src=”(.*?.jpg)”’ all...
相关热词 c# login 居中 c# 考试软件 c# 自然语言分析 c# 分段读取文件 c# 泛型反射 c#打断点 c# 时间转多少秒 c# 线程函数加参数 c# modbus 读取 c#查询集合表