python爬虫执行报错！！

写了个爬虫，从百度想从百度爬照片，爬10页时没问题，爬100页就报错了！求大神解惑！！
下面是完整代码：
#!/usr/bin/env python
#coding:utf8
import requests
import os
import sys
reload(sys)
sys.setdefaultencoding('utf8')

def getManyPages(keyword,pages):
params=[]
for i in range(30,30*pages+30,30):
params.append({
'tn':'resultjson_com',
'ipn':'rj',
'ct':201326592,
'is':'',
'fp':'result',
'queryWord':keyword,
'cl':2,
'lm':-1,
'ie':'utf-8',
'oe':'utf-8',
'adpicid':'',
'st':-1,
'z':'',
'ic': 0,
'word': keyword,
's': '',
'se': '',
'tab': '',
'width': '',

'height': '',

'face': 0,
'istype': 2,
'qc': '',
'nc': 1,
'fr': '',
'pn': i,
'rn': 30,
'gsm': '1e',
'1507548959747':''

})
url = 'https://image.baidu.com/search/acjson'
print url
urls = []
for i in params:
#print i
urls.append(requests.get(url,params=i).json().get('data'))
return urls
print urls
def getImg(dataList,localPath):
if not os.path.exists(localPath):
os.mkdir(localPath)

x = 0
for list in dataList:
    for i in list:
        if i.get('thumbURL') != None:
            print ('正在下载:%s' % i.get('thumbURL'))
            ir = requests.get(i.get('thumbURL'))
            open(localPath + '%d.jpg' % x, 'wb').write(ir.content)
            x += 1
        else:
            print ('图片链接不存在')

if name == "__main__":
dataList = getManyPages('美女',1000)
getImg(dataList,'/home/ubuntu/photo/')

执行报错：
ValueError: Invalid \escape: line 29 column 218 (char 27827)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Operation_sharing 2017-10-10 07:31
关注
#!/usr/bin/env python
#coding:utf8
import requests
import os
import sys
reload(sys)
sys.setdefaultencoding('utf8')

def getManyPages(keyword,pages):
params=[]
for i in range(30,30*pages+30,30):
params.append({
'tn':'resultjson_com',
'ipn':'rj',
'ct':201326592,
'is':'',
'fp':'result',
'queryWord':keyword,
'cl':2,
'lm':-1,
'ie':'utf-8',
'oe':'utf-8',
'adpicid':'',
'st':-1,
'z':'',
'ic': 0,
'word': keyword,
's': '',
'se': '',
'tab': '',
'width': '',

'height': '',

'face': 0,
'istype': 2,
'qc': '',
'nc': 1,
'fr': '',
'pn': i,
'rn': 30,
'gsm': '1e',
'1507548959747':''

})
url = 'https://image.baidu.com/search/acjson'
print url
urls = []
for i in params:
#print i
urls.append(requests.get(url,params=i).json().get('data'))
return urls
print urls
def getImg(dataList,localPath):
if not os.path.exists(localPath):
os.mkdir(localPath)

x = 0 for list in dataList: for i in list: if i.get('thumbURL') != None: print ('正在下载:%s' % i.get('thumbURL')) ir = requests.get(i.get('thumbURL')) open(localPath + '%d.jpg' % x, 'wb').write(ir.content) x += 1 else: print ('图片链接不存在')

if name == "__main__":
dataList = getManyPages('美女',1000)
getImg(dataList,'/home/ubuntu/photo/')
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫遇到报错 python
2022-09-11 23:38

回答 3 已采纳看样子应该是线程池错误但是你的话，把具体错误截图下，才能看出来你的代码哪里错了
python爬虫Selenium报错 python web安全
2022-09-03 18:37

回答 2 已采纳 find_enment写错了，是find_element
关于python 爬虫的报错 python
2023-01-26 10:04

回答 1 已采纳是不是被反爬，你可以把articles输出看看有没有值就知道了。看样子有可能是你从articles中取值那里有问题。articles.data.items
python爬虫常见报错_Python爬虫系列之什么是爬虫
2020-11-28 12:43

weixin_39640883的博客时间过的总是那么快，特别是对于一个有拖延症的人来说，例如我...早就想出一个关于爬虫的系列教程，但总是被自己的拖延症和一系列的...本人就是一枚从事python开发的程序猿，目前因为个人的私事原因不得不弃业置家...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
请问这样的python爬虫Header报错应该怎么办？ python 爬虫
2023-01-17 10:14

回答 2 已采纳 request.get那一行要缩进，放到collect的方法里面去，现在看起来是在方法外面啊！请采纳！！
Python爬虫代码报错就解答 https python 有问必答
2021-10-23 21:21

回答 1 已采纳 user-agent，不是user_agent，中干线，不是下划线，user-agent打错被反扒检查出来没有正确返回json内容吧
python爬虫资源路径报错_python爬虫
2020-12-09 08:18

weixin_39904587的博客一、网络爬虫介绍网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。例如，百度、google搜索某关键字时，就是爬取整个互联网上的相关资源，给呈现出来。实际爬虫四个步骤：...
基础爬虫不报错也不下数据 python
2022-07-15 23:48

回答 4 已采纳帮你改好了 ```python import urllib.parse import urllib.request def requert_get(page): first_url
关于python 爬虫的报错，如何解决？ python
2023-01-17 17:11

回答 2 已采纳 json_music没有'data'这个字段，检查一下，应该是别的名称，print一下json_music看看,这样就ok，params你已经在url里面写上了 url='https://tonzho
python爬虫基础小题目报错 python
2022-04-12 13:59

回答 3 已采纳题主，你代码里链接写错了，是点号你写成了逗号 link="http://www.santostang.com/"
python爬虫
2022-11-17 11:54

学习的程序人的博客通用爬虫：就是将互联网的上页面整体的爬取下来之后，保存到本地。通用爬虫要想爬取网页，需要网站的url.但是搜索引擎是可以搜索所有网页的。
关于python爬虫的报错Traceback (most recent cal last)问题，如何解决？ python 爬虫
2023-03-20 12:52

回答 3 已采纳多个空格
python爬虫运行linux_Python 爬虫部署 Linux
2020-12-06 11:03

weixin_39621819的博客还没看过的同学可以先看一下，这只爬虫主要用来爬取各个博客平台的阅读量等数据，一直以来都是每天晚上我自己手动在本地电脑运行，中间也有过几次忘记运行了，导致没有当天的统计数据。当然最好的办法就是把这只爬虫...
手机python爬虫教程_python爬虫入门之移动端数据的爬取
2020-12-28 21:24

苏盆栽的博客爬虫文件中yield item 只可以将item传递给第一个被执行的(优先级最高的)管道#将同一份数据持久化存储到不同平台中: #分析 1.管道文件中的一个管道内负责数据的一种形式的持久化存储 setting.py中 ----- 基于终端指令...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

python爬虫执行报错！！

1条回答 默认 最新

悬赏问题

1条回答默认最新