python爬取图片

import os
import bs4
import re
import time
import requests
from bs4 import BeautifulSoup

def getHTMLText(url, headers):
try:
r = requests.get(url=url, headers=headers)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "html.parser")
return soup
except:
return ""

def CreateFolder():
flag = True
while flag == 1:
file = input("请输入保存数据文件夹的名称：")
if not os.path.exists(file):
os.mkdir(file)
flag = False
else:
print('该文件已存在，请重新输入')
flag = True

# os.path.abspath(file)  获取文件夹的绝对路径
path = os.path.abspath(file) + "\\"
return path

def fillUnivList(ulist, soup):
# [0]使得获得的ul是 <class 'bs4.BeautifulSoup'> 类型
div = soup.find_all('div', 'list')[0]
for a in div('a'):
if isinstance(a, bs4.element.Tag):
hr = a.attrs['href']
href = re.findall(r'/desk/[1-9]\d{4}.htm', hr)
if bool(href) == True:
ulist.append(href[0])

return ulist

def DownloadPicture(left_url,list,path):
for right in list:
url = left_url + right
r = requests.get(url=url, timeout=10)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,"html.parser")
tag = soup.find_all("p")
# 获取img标签的alt属性，给保存图片命名
name = tag[0].a.img.attrs['alt']
img_name = name + ".jpg"
# 获取图片的信息
img_src = tag[0].a.img.attrs['src']
try:
img_data = requests.get(url=img_src)
except:
continue

    img_path = path + img_name
    with open(img_path,'wb') as fp:
        fp.write(img_data.content)
    print(img_name, "   ******下载完成！")

def PageNumurl(urls):
num = int(input("请输入爬取所到的页码数："))
for i in range(2,num+1):
u = "http://www.netbian.com/index_" + str(i) + ".htm"
urls.append(u)

return urls

if name == "main":
uinfo = []
left_url = "http://www.netbian.com"
urls = ["http://www.netbian.com/index.htm"]
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
}
start = time.time()
# 1.创建保存数据的文件夹
path = CreateFolder()
# 2. 确定要爬取的页面数并返回每一页的链接
PageNumurl(urls)
n = int(input("访问的起始页面："))
for i in urls[n-1:]:
# 3.获取每一个页面的首页数据文本
soup = getHTMLText(i, headers)
# 4.访问原图所在页链接并返回图片的链接
page_list = fillUnivList(uinfo, soup)
# 5.下载原图
DownloadPicture(left_url, page_list, path)

 print("全部下载完成！", "共" + str(len(os.listdir(path))) + "张图片")

代码来源：明总有

如果要爬取别的网站，哪几个地方需要更改(怎样查找)
例：https://konachan.net/post

由于本人是刚入门，查了很久也没查出个所以然阿巴阿巴

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
苏凉前端领域优质创作者 2022-04-08 10:41
关注
1.修改你要爬的url
2.修改元素定位，每个网页的源码不同，你要爬取哪个网站的图片，对图片检查，利用xpath插件找到改图片的元素定位。
3.如果你要获取多页，需要对url进行重组修改(每一页的url可能就是page上的变化不同)
主要的就是这三点！
欢迎来我博客主页看爬虫的相关知识点哦！

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取图片报错TypeError python 爬虫
2022-12-29 23:52

回答 1 已采纳你这是没有爬到，数据为空的才报的错。可以使用异常处理try一下，再处理为空的情况
Python爬取图片问题 python
2021-04-07 06:15

回答 2 已采纳题主存在问题是：保存图片路径是写死的，循环中会一直覆盖写入"python爬虫图片实验2.jpg"这张图片，所以最后只能得到一张图片修改：保存图片路径需要改一下，让每一次循环时，图片写入不
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
简单实现Python爬取网络图片
2020-12-23 20:21

本文实例为大家分享了Python爬取网络图片的具体代码，供大家参考，具体内容如下代码： import urllib import urllib.request import re #打开网页，下载器 def open_html ( url): require=urllib.request.Request...
python 爬取图片，部分图片无法下载，求解答 python 爬虫
2021-09-04 11:53

回答 9 已采纳你的目录名过长，而且多级目录，是不是有点自己找苦吃，你确保这个目录存在吗？建议你简化目录结构并确保目录存在，如再不成功再发问题。有帮助请采纳！
python 爬取图片存储到文件夹问题 python 爬虫
2022-02-14 17:09

回答 3 已采纳你的文件夹是由self.create_mkdir(self.filename_path + url_id) 这行代码生成的，所以文件夹的名字是url_id。你只需要多定义一个变量作为文件夹名字就可以了
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
python爬取图片
2022-11-25 22:47

汪宝儿的博客爬取百度图片、图片下载、图片格式
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python 批量爬取图片并保存到本地文件夹中不成功 python 有问必答
2021-06-29 15:43

回答 2 已采纳你的temp只是一个字符串，应该是一个url，你还没发送请求，用requests发送一下请求
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
Python爬取图片
2022-01-19 17:46

Mr.Haley的博客爬取网站https://image.baidu.com/
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
python爬取图片并下载
2023-08-06 12:54

python爬取百度图片并进行下载保存到本地(可搜索图片名称)
Python爬取王者荣耀英雄图片
2020-12-22 10:25

Python爬取王者荣耀英雄图片爬虫，下图片，很简单，直接上代码 import requests import os import json def get_hero_id(): idlist = [] namelist = [] try: response = json.loads(requests.get('...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月2日

悬赏问题

¥15 Ios抖音直播的时候如何添加自定义图片在直播间！
¥15 ssh登录页面的问题
¥60 渗透一个指定银行app，拿到客户信息，需要什么级别
¥50 关于在matlab上对曲柄摇杆机构上一点的运动学仿真
¥15 jetson nano
¥15 :app:debugCompileClasspath'.
¥15 windows c++内嵌qt出现数据转换问题。
¥15 stm32 串口通讯过程中的问题
¥20 公众号如何实现点击超链接后自动发送文字
¥15 用php隐藏类名和增加类名

python爬取图片

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新