python爬虫执行报错！！

写了个爬虫，从百度想从百度爬照片，爬10页时没问题，爬100页就报错了！求大神解惑！！
下面是完整代码：
#!/usr/bin/env python
#coding:utf8
import requests
import os
import sys
reload(sys)
sys.setdefaultencoding('utf8')

def getManyPages(keyword,pages):
params=[]
for i in range(30,30*pages+30,30):
params.append({
'tn':'resultjson_com',
'ipn':'rj',
'ct':201326592,
'is':'',
'fp':'result',
'queryWord':keyword,
'cl':2,
'lm':-1,
'ie':'utf-8',
'oe':'utf-8',
'adpicid':'',
'st':-1,
'z':'',
'ic': 0,
'word': keyword,
's': '',
'se': '',
'tab': '',
'width': '',

'height': '',

'face': 0,
'istype': 2,
'qc': '',
'nc': 1,
'fr': '',
'pn': i,
'rn': 30,
'gsm': '1e',
'1507548959747':''

})
url = 'https://image.baidu.com/search/acjson'
print url
urls = []
for i in params:
#print i
urls.append(requests.get(url,params=i).json().get('data'))
return urls
print urls
def getImg(dataList,localPath):
if not os.path.exists(localPath):
os.mkdir(localPath)

x = 0
for list in dataList:
    for i in list:
        if i.get('thumbURL') != None:
            print ('正在下载:%s' % i.get('thumbURL'))
            ir = requests.get(i.get('thumbURL'))
            open(localPath + '%d.jpg' % x, 'wb').write(ir.content)
            x += 1
        else:
            print ('图片链接不存在')

if name == "__main__":
dataList = getManyPages('美女',1000)
getImg(dataList,'/home/ubuntu/photo/')

执行报错：
ValueError: Invalid \escape: line 29 column 218 (char 27827)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Operation_sharing 2017-10-10 07:31
关注
#!/usr/bin/env python
#coding:utf8
import requests
import os
import sys
reload(sys)
sys.setdefaultencoding('utf8')

def getManyPages(keyword,pages):
params=[]
for i in range(30,30*pages+30,30):
params.append({
'tn':'resultjson_com',
'ipn':'rj',
'ct':201326592,
'is':'',
'fp':'result',
'queryWord':keyword,
'cl':2,
'lm':-1,
'ie':'utf-8',
'oe':'utf-8',
'adpicid':'',
'st':-1,
'z':'',
'ic': 0,
'word': keyword,
's': '',
'se': '',
'tab': '',
'width': '',

'height': '',

'face': 0,
'istype': 2,
'qc': '',
'nc': 1,
'fr': '',
'pn': i,
'rn': 30,
'gsm': '1e',
'1507548959747':''

})
url = 'https://image.baidu.com/search/acjson'
print url
urls = []
for i in params:
#print i
urls.append(requests.get(url,params=i).json().get('data'))
return urls
print urls
def getImg(dataList,localPath):
if not os.path.exists(localPath):
os.mkdir(localPath)

x = 0 for list in dataList: for i in list: if i.get('thumbURL') != None: print ('正在下载:%s' % i.get('thumbURL')) ir = requests.get(i.get('thumbURL')) open(localPath + '%d.jpg' % x, 'wb').write(ir.content) x += 1 else: print ('图片链接不存在')

if name == "__main__":
dataList = getManyPages('美女',1000)
getImg(dataList,'/home/ubuntu/photo/')
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫遇到报错 python
2022-09-11 23:38

回答 3 已采纳看样子应该是线程池错误但是你的话，把具体错误截图下，才能看出来你的代码哪里错了
python爬虫Selenium报错 python web安全
2022-09-03 18:37

回答 2 已采纳 find_enment写错了，是find_element
关于python 爬虫的报错 python
2023-01-26 10:04

回答 1 已采纳是不是被反爬，你可以把articles输出看看有没有值就知道了。看样子有可能是你从articles中取值那里有问题。articles.data.items
python爬虫
2022-11-17 11:54

学习的程序人的博客通用爬虫：就是将互联网的上页面整体的爬取下来之后，保存到本地。通用爬虫要想爬取网页，需要网站的url.但是搜索引擎是可以搜索所有网页的。
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
请问这样的python爬虫Header报错应该怎么办？ python 爬虫
2023-01-17 10:14

回答 2 已采纳 request.get那一行要缩进，放到collect的方法里面去，现在看起来是在方法外面啊！请采纳！！
Python爬虫代码报错就解答 https python 有问必答
2021-10-23 21:21

回答 1 已采纳 user-agent，不是user_agent，中干线，不是下划线，user-agent打错被反扒检查出来没有正确返回json内容吧
python爬虫运行linux_Python 爬虫部署 Linux
2020-12-06 11:03

weixin_39621819的博客还没看过的同学可以先看一下，这只爬虫主要用来爬取各个博客平台的阅读量等数据，一直以来都是每天晚上我自己手动在本地电脑运行，中间也有过几次忘记运行了，导致没有当天的统计数据。当然最好的办法就是把这只爬虫...
关于python 爬虫的报错，如何解决？ python
2023-01-17 17:11

回答 2 已采纳 json_music没有'data'这个字段，检查一下，应该是别的名称，print一下json_music看看,这样就ok，params你已经在url里面写上了 url='https://tonzho
python爬虫基础小题目报错 python
2022-04-12 13:59

回答 3 已采纳题主，你代码里链接写错了，是点号你写成了逗号 link="http://www.santostang.com/"
关于python爬虫的报错Traceback (most recent cal last)问题，如何解决？ python 爬虫
2023-03-20 12:52

回答 3 已采纳多个空格
python爬虫常见报错_Python爬虫系列之什么是爬虫
2020-11-28 12:43

weixin_39640883的博客时间过的总是那么快，特别是对于一个有拖延症的人来说，例如我...早就想出一个关于爬虫的系列教程，但总是被自己的拖延症和一系列的...本人就是一枚从事python开发的程序猿，目前因为个人的私事原因不得不弃业置家...
pycharm安装flask_cors报错！安装了CORS flask pycharm python
2021-11-13 09:47

回答 1 已采纳左下角的框显示已安装flask_cors了
python爬虫反反爬机制：动态User-Agent+动态ip
2023-03-23 11:32

我是女生，我不做程序媛的博客 User-Agent是浏览器的头部信息，不设置时会被识别出Python。因此一般将自己的浏览器User-Agent传入。网络上有很多免费的ip地址，但是对我们的目标网站不一定能用，因此需要先进行测试。这里直接贴代码（来源：置顶...
手机python爬虫教程_python爬虫入门之移动端数据的爬取
2020-12-28 21:24

苏盆栽的博客爬虫文件中yield item 只可以将item传递给第一个被执行的(优先级最高的)管道#将同一份数据持久化存储到不同平台中: #分析 1.管道文件中的一个管道内负责数据的一种形式的持久化存储 setting.py中 ----- 基于终端指令...
没有解决我的问题, 去提问

悬赏问题

¥50 C++五子棋AI程序编写
¥30 求安卓设备利用一个typeC接口，同时实现向pc一边投屏一边上传数据的解决方案。
¥15 SQL Server analysis services 服务安装失败
¥15 用html创建一个个人网页，提供网页页面
¥15 基于面向对象的图书馆借阅管理系统
¥15 opencv图像处理，需要四个处理结果图
¥20 centos linux 7.9安装php8.2.18不支持mysqli模块的问题
¥15 stata空间计量LM检验
¥15 关于k8s node节点被释放后如何驱逐节点并添加新节点
¥15 subprocess.CalledProcessError: Command ‘[‘ninja‘, ‘-v‘]‘ returned non-zero exit status 1

python爬虫执行报错！！

1条回答 默认 最新

悬赏问题

1条回答默认最新