python图片爬取，求大神帮忙看看问题在哪儿

试过好多次，能爬到大概2页多一点，没能爬完指定的页面就显示代码里面的except的内容，然后就停了，好像又没报错，实在不知道要怎么调试，（爬取的文件有点多，是不是需要打包成多线程，百度试过方法，没成功），然后需要把详情页里的一段信息和网址加到图片属性里，一点头绪也没有，门外汉一点点百度学的，请大神们不要嫌弃，求大神们赐教

import traceback

from bs4 import BeautifulSoup
import requests
import os
import lxml
import json
import time
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}


# 从缩略图网页里爬取整个图片集
def getPic(url):
    print("download pic url +==="+url)
    result = requests.get(url, headers=headers)
    result.encoding = 'utf-8'
    soup = BeautifulSoup(result.content, 'lxml')
    json_data = soup.find('div', attrs={'id': 'gallery-items'})
    name = soup.find('a').string

    simpleName = re.sub(r'[/:*?"<>|\\\\]+', '-', name)
    print(simpleName)
    path = 'f:/CodeWar/spider/Archdaily/'

    newPath = os.path.join(path, simpleName)
    os.makedirs(newPath, exist_ok=True)
    os.chdir(newPath)

    # print(newPath)
    figures = json.loads(json_data.get('data-images'))

    i = 1
    for figure in figures:
        # print(figure['url_large'])
        try:
            print('downloading number:' + str(i)+"====>>"+figure['url_large'])
            image = requests.get(url=figure['url_large'], headers=headers)
            if image.status_code == 200:
                # with open(simpleName + str(i) + '.jpg', 'wb') as f:
                with open(str(i) + '.jpg', 'wb') as f:
                    f.write(image.content)
            i += 1
        except:
            print("figure=======>>ZZzzzz...")
            time.sleep(5)
            print("===================e...")
            continue

# 从主网页获取单个网页的地址
def get_url(page):
    pageResult = requests.get(sourceWeb, headers=headers)
    pageSoup = BeautifulSoup(pageResult.content, 'lxml')

    for collection in pageSoup.find_all('a', class_='afd-title--black-link'):
        if 'href' in collection.attrs:
            sonLink = 'https://www.archdaily.com' + collection.attrs['href']
            sonResponde = requests.get(sonLink, headers=headers)
            sonResponde.encoding = 'utf-8'
            sonSoup = BeautifulSoup(sonResponde.content, 'lxml')
            thumb = sonSoup.find('a', class_='gallery-thumbs-link')
            if thumb:
                thumbLink = 'https://www.archdaily.com' + thumb.attrs['href']
                # print(thumbLink)
                try:
                    getPic(thumbLink)
                except:
                    print("ZZzzzz...")
                    time.sleep(5)
                    print("==xxxxxx=======e...")
                    continue
            # print(url_collections)
        print('—--------creat next folder—--------')

motherWeb = 'https://www.archdaily.com/page/'
n = 0
# 指定需要爬取页数
wanna_page = 10
while n <= wanna_page:
    n += 1
    sourceWeb = motherWeb + str(n)
    try:
        get_url(sourceWeb)
        print('this is page' + str(n))
    except:
        print("Connection refused by the server..")
        print("Let me sleep for 5 seconds")
        print("ZZzzzz...")
        time.sleep(5)
        print("Was a nice sleep, now let me continue...")
        continue

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bj_0163_bj 2021-01-07 10:10
关注
是放在属性的详细信息里吧？修改图片exif信息，把你的user-agent 放作者里了。

from PIL import Image import piexif im = Image.open('4.jpg') exif_dict = piexif.load(im.info["exif"]) exif_dict["0th"][piexif.ImageIFD.Artist] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36".encode() exif_bytes = piexif.dump(exif_dict) im.save("4.jpg", exif=exif_bytes)
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
python爬虫爬取某站上海租房图片
2021-01-20 04:47

这段时间开始学习python爬虫，今天周末无聊写了一段代码爬取上海租房图片，其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup。python 版本：python3.6 ,IDE ：pycharm。其实就几行代码，但希望没有开发基础...
python 批量爬取图片并保存到本地文件夹中不成功 python 有问必答
2021-06-29 15:43

回答 2 已采纳你的temp只是一个字符串，应该是一个url，你还没发送请求，用requests发送一下请求
python怎么爬取百度百科上canvas标签的图片 python
2018-12-03 07:20

回答 3 已采纳也就是爬取动态图片吧 # coding = utf-8 import urllib.request import re import requests def getDatas(
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
看大神如何用python爬虫爬取京东商品评论
2020-04-27 22:19

程序员大成的博客我们这里选择继续在python中完成后续的数据分析和可视化工作 #保存table数据表 table.to_csv('jd_table.csv') 数据分析及可视化分月评论数据变化趋势首先查看京东商品评论的时间变化趋势情况，大部分用户在购买...
Python爬取图片问题 python
2021-04-07 06:15

回答 2 已采纳题主存在问题是：保存图片路径是写死的，循环中会一直覆盖写入"python爬虫图片实验2.jpg"这张图片，所以最后只能得到一张图片修改：保存图片路径需要改一下，让每一次循环时，图片写入不
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
小白刚学Python，求各位大佬帮忙看看哪里错了 python
2022-12-08 08:22

回答 2 已采纳你需要获取的是指定日期是本年的第几天，你这个不对，需要循环日期的月份然后进行累积最后一个月不算直接+1
【Python】------ Python批量爬取某网站图片代码展示
2021-05-10 17:28

皮皮冰要做大神的博客一， Python批量爬取某网站图片代码展示简洁清晰： 1.使用技术包：requests,urllib,BeautifulSoup等； 1.效果展示： import os import re import requests import json from lxml import etree import ...
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python怎样爬取付费文档_Python爬取百度百科！付费文档同样爬！
2020-12-02 14:01

weixin_39889329的博客任务简介利用 python 爬取百度百科的任何一个词条的简介，在本文中我们将了解爬虫的几个库的基本使用方法，例如 bs4 (BeautifulSoup)，requests 等等，可以这么说，学完这一篇文章，你就可以爬取一些静...
python爬取头条付费专栏视频_用Python编写爬取头条视频的代码
2020-12-03 07:10

weixin_39810901的博客最近一直在头条上面看关于Python的视频，可头条视频没有下载选项。通过浏览器自带的开发者工具(Google按F12)可以查看到视频的地址，并进行下载。这是手动下载，每回查看感觉还是比较费事，就想用Python写个代码，...
没有解决我的问题, 去提问

悬赏问题

¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）
¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)

python图片爬取，求大神帮忙看看问题在哪儿

1条回答 默认 最新

悬赏问题

1条回答默认最新