关于#python#的问题：python爬虫爬取百度图片

###### 问题遇到的现象和发生背景
想要爬取百度上的图片，爬取不出来
###### 问题相关代码，请勿粘贴截图

import requests
import urllib.request
from bs4 import BeautifulSoup
import os
import time

url = 'https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%C6%A4%BF%A8%C7%F0'
headers = {'User-Agent': 'Mozilla/5.0(Windows NT 6.1; WOW64) AppleWebKit/537.36 (KETTLE, like '
                         'Gecko) Chrome/34.0.1847.137 Safari/537.36 LOBBERS'}
response = requests.get(url, headers=headers)  # 使用headers避免访问受限
soup = BeautifulSoup(response.content, 'html.parser')
items = soup.find_all('img')
folder_path = './photo/'
if not os.path.exists(folder_path):  # 判断文件夹是否已经存在
    os.makedirs(folder_path)  # 创建文件夹

for index, item in enumerate(items):
    if item:
        html = requests.get(item.get('src'))  # get函数获取图片链接地址，requests发送访问请求
        img_name = folder_path + str(index + 1) + '.png'
        with open(img_name, 'wb') as file:  # 以byte形式将图片数据写入
            file.write(html.content)
            file.flush()
        file.close()  # 关闭文件
        print('第%d张图片下载完成' % (index + 1))
        time.sleep(1)  # 自定义延时
print('抓取完成')

###### 运行结果及报错内容

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-天际的海浪 2021-11-27 22:04

关注

你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。
requests只能获取网页的静态源代码，动态更新的内容取不到。
对于动态更新的内容要用selenium 来爬取。

或者是通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。

在页面上点击右键，右键菜单中选 "查看网页源代码"。

这样看到的才是网页的静态源代码。
如果这个网页的静态源代码中有你需要爬取的内容，就说明该页面没有动态内容，可以用requests爬取。
否则就说明该页面的内容是动态更新的，要用selenium 来爬取.

你题目的解答代码如下：

import requests
import urllib.request
from bs4 import BeautifulSoup
import os
import time
url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=11169489735361612176&ipn=rj&ct=201326592&is=&fp=result&fr=&word=%E7%9A%AE%E5%8D%A1%E4%B8%98&queryWord=%E7%9A%AE%E5%8D%A1%E4%B8%98&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&expermode=&nojc=&isAsync=&pn=30&rn=30&gsm=1e&1638026359917='
headers = {
'Host': 'image.baidu.com',
'Pragma': 'no-cache',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36'
}
response = requests.get(url, headers=headers)  # 使用headers避免访问受限
print(response.json())
items = response.json()['data']
folder_path = './photo/'
if not os.path.exists(folder_path):  # 判断文件夹是否已经存在
    os.makedirs(folder_path)  # 创建文件夹
for index, item in enumerate(items):
    if item:
        print(item['middleURL'])
        html = requests.get(item['middleURL'])  # get函数获取图片链接地址，requests发送访问请求
        img_name = folder_path + str(index + 1) + '.png'
        with open(img_name, 'wb') as file:  # 以byte形式将图片数据写入
            file.write(html.content)
            file.flush()
        file.close()  # 关闭文件
        print('第%d张图片下载完成' % (index + 1))
        time.sleep(1)  # 自定义延时
print('抓取完成')

如有帮助，望采纳！谢谢!

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
关于#python#的问题：python爬虫 python 爬虫
2023-04-06 21:17

回答 2 已采纳根据代码片段，您的问题可能出现在XPath表达式上。您在获取评论列表的Xpath表达式中使用了.format(j)，但是您并没有在字符串中使用花括号来表示要替换的值。因此，.format(j)部分被忽
关于#python#的问题：爬虫怎么爬取vue的数据，找不到url连接，懂爬虫给我分析一下 python 爬虫
2023-02-19 14:54

回答 1 已采纳 Vue.js 是一个前端框架，常用于构建单页应用程序（SPA）和动态网页。因此，Vue.js 的数据通常是由前端通过异步请求获取并展示的，而不是像传统的多页应用程序一样，由服务器直接渲染并返回 HTM
python作业：爬虫爬取京东评论
2024-07-07 09:57

Python作业：爬虫爬取京东评论；Python作业：爬虫爬取京东评论；Python作业：爬虫爬取京东评论；Python作业：爬虫爬取京东评论；Python作业：爬虫爬取京东评论；Python作业：爬虫爬取京东评论；Python作业：爬虫爬取...
关于#python#的问题：用Python爬取网页时，直接运行for语句下的代码可正常运行，加入for语句进行循环则报错 python 爬虫
2023-01-04 12:32

回答 3 已采纳 01.html和1.html很显然不是同一个网址，你在错误的网址下当然抓不到东西，是空的改成 target = f"http://paper.people.com.cn/rmrb/html/20{ye
关于#python#的问题：字典键值对 python 爬虫
2022-08-07 16:21

回答 2 已采纳 text改成json()
关于#爬虫#的问题：爬虫爬取tr中的td内容，我的代码之前可以爬另一个几乎一样的网页(语言-python) python 爬虫
2023-03-08 20:02

回答 1 已采纳回答：你可以把你的脚本贴一下，这个网页结构还是比较清晰的，可以用beautifulsoup比较容易获取到内容
python爬虫爬取百度图片
2024-01-02 16:41

python爬虫爬取百度图片
关于#python#的问题：爬虫开发者为别人提供了一份爬虫工具，使用者违规爬取三方机密数据 python 爬虫
2023-01-30 18:19

回答 1 已采纳使用者肯定进去，这不用说，至于开发者，就存在具体情况，假如以买卖的方式提供，也跑不了。望采纳
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
关于#python#的问题：我想知道这段python爬虫代码有什么问题，为什么爬取不到我想要的信息呀代码如下： python 开发语言爬虫
2023-02-16 10:59

回答 3 已采纳。。我试了一下，确实在构造infos时，XPATH没问题，但是infos没有值这里看到protected Attributes 了吗，说明哔哩哔哩还是有反爬机制的。百度一下~https://ask
python爬虫入门教程：爬取网页图片
2022-04-05 15:25

plexming的博客而用python做爬虫也十分简单方便，下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程：准备工作语言：python IDE：pycharm 首先是要用到的库，因为是刚入门最简单的程序，我们主要就用到下面这两： ...
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
python爬虫爬取网页图片
2022-12-22 18:05

chenruhan_QAQ_的博客 python爬虫爬取网页上的图片
python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片（一）
2021-01-14 22:32

weixin_34537864的博客什么是爬虫网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF...(来源：百度百科)爬虫协议Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议告...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月27日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

关于#python#的问题：python爬虫爬取百度图片

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新