在网络爬取百度图片时遇到的问题

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

import os, re, requests
root = 'E:/PycharmProjects/pythonProhttps://img-mid.csdnimg.cn/release/static/image/mid/ask/862977902936192.png "#left")
ject/百度图片'
if not os.path.exists(root):
    os.makedirs(root)
pattern = r'"ObjURL":"(.*?)"'
pattern = re.compile(pattern)


def getTextFromHtml(url):
    cReturn = ""
    try:
        r = requests.get(url, timeout=30, headers={'Accept': 'application/json, text/javascript, */*; q=0.01','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection':'keep-alive','Sec-Fetch-Dest': 'empty','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.11261 SLBChan/103'})
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        cReturn = r.text
    except:
        cReturn = ''
    return cReturn


def download(List):
    for u in List:
        try:
            path=root+u.split('/')[-1]
            u = u.replace('\\', '')
            r = requests.get(u, timeout=30)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            if not os.path.exists(path):
                with open(path,'wb') as f:
                    f.write(r.content)
                    f.close()
                    print(path + ' 文件保存成功')
        except:
             print(u, "下载失败，可能链接不是指定格式图片")


def getOtherPage(nPage, nNum, word):
    urllist = []
    url = r'http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={pn}&rn={rn}'

    for x in range(1, nPage + 1):
        u = url.format(word=word, pn=nNum * x, rn=nNum)
        urllist.append(u)
    return urllist

n = 30
page = int(input('输入想下载多少页图片（每页%d张图片）：' % (n)))
word = input('输入想下载的图片搜索关键字:')

url = 'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1499773676062_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word={word}'.format(word=word)
html = getTextFromHtml(url)
firstUrlList = re.findall(pattern, html)
download(firstUrlList)

otherUrlList = getOtherPage(page, n, word)
for i in range(page):
    html = getTextFromHtml(otherUrlList[i])
    url = re.findall(pattern, html)
    download(url)

运行结果及报错内容

我的解答思路和尝试过的方法

该代码能够运行，但无法进入try中

我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

CSDN专家-showbo 2021-12-11 23:16

关注

download改下面这样就行了，保存的文件路径有问题，而且正则也搞错了，objURL，不是ObjURL，搞得没取出路径调试了下，发现大小写写错了，-_-||。。

def download(List):
    for u in List:
        try:
            #这里路径有问题，不是图片的问题，由于url中包含其他乱七八糟的路径中不能存在的内容，导致路径出错走了except。用当前时间来命名文件好些
            path=root+'/'+str(time.time())+".jpg"
            #u = u.replace('\\', '')
            r = requests.get(u, timeout=30)
            #r.raise_for_status()
            #r.encoding = r.apparent_encoding
            if not os.path.exists(path):
                with open(path,'wb') as f:
                    f.write(r.content)
                    f.close()
                    print(path + ' 文件保存成功')
        except:
             print(u, "下载失败，可能链接不是指定格式图片")

有帮助麻烦点下【采纳该答案】，谢谢~~

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python编写爬虫代码爬取百度的高清摄影图片
2024-12-10 21:44

Python编写爬虫代码爬取百度的高清摄影图片的过程涉及到了几个关键技术环节。首先，必须构建一个合适的HTTP请求，以便模拟网络浏览器对百度图片进行访问。这一步骤通常涉及到使用Python中的requests库，它可以方便地...
百度.py python 爬取百度搜索结果，及安全验证问题
2021-11-16 20:12

python 爬取百度搜索结果，及安全验证问题
Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例
2020-09-20 14:03

本文详细介绍了使用Python语言实现一个爬虫程序，用于爬取百度贴吧中某个帖子的所有楼层图片。为了达成这一目的，程序中使用了urllib库进行网络请求，使用了正则表达式库re来匹配和解析网页中的信息，以及利用...
Python爬取百度图片资源
2024-03-12 16:50

爬取百度图片涉及到百度的反爬虫机制，因此直接爬取可能会遇到各种问题，比如验证码、IP封锁等。而且，未经许可的爬取行为可能违反百度的服务条款。但如果你只是想了解基本的爬虫原理，我可以为你提供一个简单的示例...
python爬虫爬取百度贴吧的图片
2024-02-22 09:29

在这个实例中，我们将关注如何利用Python爬虫来抓取百度贴吧的图片。首先，我们需要了解百度贴吧的基本结构。百度贴吧是一个基于关键词的主题讨论区，用户可以在特定的“贴吧”内发布帖子、图片、评论等。每个贴吧...
python爬虫_爬取百度图片.zip
2023-10-14 12:07

总结来说，Python爬虫爬取百度图片涉及的知识点包括：网络请求（`requests`库），HTML解析（`BeautifulSoup`库），图片下载（`urllib.request`库），以及可能遇到的反爬策略和优化技巧。通过实践这些技术，你可以...
python2爬取百度贴吧指定关键字和图片代码实例
2020-09-18 20:05

总的来说，本篇文档通过实例代码详细介绍了如何使用Python 2.x版本来爬取百度贴吧指定关键字的帖子及其包含的图片，并且针对一些常见问题给出了对应的解决方案。对于想要学习Python爬虫技术的用户来说，本文提供了...
Python实现爬取百度搜索到的图片
2025-05-21 16:28

StrideAlong的博客爬虫，Python，可设置下载数量。
python爬取百度图片中遇到requests返回数据为乱码问题解决办法
2023-07-05 23:07

清净将的博客总结：在爬取数据的时候，在得不到正常数据的时候，可以尝试一条一条修改headers里面的参数，不要全部删或全部加。这里的, br去掉或者整行去掉即可正常得到response数据了。究其原因，还是伪装出问题了，
python爬取百度图片并对图片做一系列处理
2021-08-07 12:28

贝加尔湖畔_tq的博客 1、首先python爬取百度图片代码如下： import csv import os import re import parsel import requests headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)like Gecko)'} ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月11日

在网络爬取百度图片时遇到的问题

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新