在网络爬取百度图片时遇到的问题

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

import os, re, requests
root = 'E:/PycharmProjects/pythonProhttps://img-mid.csdnimg.cn/release/static/image/mid/ask/862977902936192.png "#left")
ject/百度图片'
if not os.path.exists(root):
    os.makedirs(root)
pattern = r'"ObjURL":"(.*?)"'
pattern = re.compile(pattern)


def getTextFromHtml(url):
    cReturn = ""
    try:
        r = requests.get(url, timeout=30, headers={'Accept': 'application/json, text/javascript, */*; q=0.01','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection':'keep-alive','Sec-Fetch-Dest': 'empty','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.11261 SLBChan/103'})
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        cReturn = r.text
    except:
        cReturn = ''
    return cReturn


def download(List):
    for u in List:
        try:
            path=root+u.split('/')[-1]
            u = u.replace('\\', '')
            r = requests.get(u, timeout=30)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            if not os.path.exists(path):
                with open(path,'wb') as f:
                    f.write(r.content)
                    f.close()
                    print(path + ' 文件保存成功')
        except:
             print(u, "下载失败，可能链接不是指定格式图片")


def getOtherPage(nPage, nNum, word):
    urllist = []
    url = r'http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={pn}&rn={rn}'

    for x in range(1, nPage + 1):
        u = url.format(word=word, pn=nNum * x, rn=nNum)
        urllist.append(u)
    return urllist

n = 30
page = int(input('输入想下载多少页图片（每页%d张图片）：' % (n)))
word = input('输入想下载的图片搜索关键字:')

url = 'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1499773676062_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word={word}'.format(word=word)
html = getTextFromHtml(url)
firstUrlList = re.findall(pattern, html)
download(firstUrlList)

otherUrlList = getOtherPage(page, n, word)
for i in range(page):
    html = getTextFromHtml(otherUrlList[i])
    url = re.findall(pattern, html)
    download(url)

运行结果及报错内容

我的解答思路和尝试过的方法

该代码能够运行，但无法进入try中

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

CSDN专家-showbo 2021-12-11 23:16

关注

download改下面这样就行了，保存的文件路径有问题，而且正则也搞错了，objURL，不是ObjURL，搞得没取出路径调试了下，发现大小写写错了，-_-||。。

def download(List):
    for u in List:
        try:
            #这里路径有问题，不是图片的问题，由于url中包含其他乱七八糟的路径中不能存在的内容，导致路径出错走了except。用当前时间来命名文件好些
            path=root+'/'+str(time.time())+".jpg"
            #u = u.replace('\\', '')
            r = requests.get(u, timeout=30)
            #r.raise_for_status()
            #r.encoding = r.apparent_encoding
            if not os.path.exists(path):
                with open(path,'wb') as f:
                    f.write(r.content)
                    f.close()
                    print(path + ' 文件保存成功')
        except:
             print(u, "下载失败，可能链接不是指定格式图片")

有帮助麻烦点下【采纳该答案】，谢谢~~

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

在网络爬取百度图片时遇到的问题 python 有问必答
2021-12-11 15:28

回答 1 已采纳 download改下面这样就行了，保存的文件路径有问题，而且正则也搞错了，objURL，不是ObjURL，搞得没取出路径调试了下，发现大小写写错了，-_-||。。 def download(List
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
小白请教高手，python爬取数据遇到js隐藏div怎么办 javascript python
2018-10-12 01:45

回答 3 已采纳以下是获取点击查看返回内容，测试可以完成爬取 ``` import requests def test(): s=requests.session() headers
百度.py python 爬取百度搜索结果，及安全验证问题
2021-11-16 20:12

python 爬取百度搜索结果，及安全验证问题
python中js代码的问题 javascript python
2022-09-08 16:49

回答 3 已采纳看你使用什么模块去执行js代码，每个模块的调用方式不一样，举个例子： import execjs ctx = execjs.compile(""" function add(x, y) { r
问一下python 代理的问题 python
2022-08-17 23:30

回答 1 已采纳你这个问题要把try, except 删除看看具体报错原因，怀疑大概率是超时导致的，timeout=1太短了
简单爬取雪球的7*24热点消息，遇到时间码不会转换 python
2021-08-04 09:10

回答 1 已采纳 shijian = n['created_at']替换成shijian = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(int(n['creat
Python爬取百度图片资源
2024-03-12 16:50

爬取百度图片涉及到百度的反爬虫机制，因此直接爬取可能会遇到各种问题，比如验证码、IP封锁等。而且，未经许可的爬取行为可能违反百度的服务条款。但如果你只是想了解基本的爬虫原理，我可以为你提供一个简单的示例...
如何爬取pdf文档呢？ python 数据挖掘爬虫
2022-03-15 17:59

回答 1 已采纳神仙来了也不行
python爬虫只能获得一条数据 python 爬虫
2022-08-23 18:15

回答 1 已采纳复制我的代码试试： import requests from bs4 import BeautifulSoup def get_page(link): headers = {'User-Ag
pycharm爬虫生成HTML文件时里面内容中文乱码 pycharm python 爬虫
2022-11-14 00:35

回答 2 已采纳保存时用utf-8编码with open("mybaiodu.html",mode = "w",encoding="utf-8") as f
python爬取百度图片并对图片做一系列处理
2021-08-07 12:28

贝加尔湖畔_tq的博客 1、首先python爬取百度图片代码如下： import csv import os import re import parsel import requests headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)like Gecko)'} ...
python爬虫报错，哎，自学进度止步两天！ pycharm python 有问必答爬虫
2021-11-19 15:21

回答 2 已采纳豆瓣的数据接口是https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start=0&limit
python爬取百度图片中遇到requests返回数据为乱码问题解决办法
2023-07-05 23:07

清净将的博客总结：在爬取数据的时候，在得不到正常数据的时候，可以尝试一条一条修改headers里面的参数，不要全部删或全部加。这里的, br去掉或者整行去掉即可正常得到response数据了。究其原因，还是伪装出问题了，
python爬取百度图片的思路与代码(最后附上了代码）
2022-05-31 15:58

hustle T的博客 python爬取百度图片的详细思路与代码。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月11日

悬赏问题

¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么

在网络爬取百度图片时遇到的问题

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新