import re
import requests
import os # 创建文件夹模块
if __name__=='__main__':
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36'
}
if not os.path.exists('../正则/qiutuLibs'):
os.mkdir('../正则/qiutuLibs')
url = 'https://www.qiushibaike.com/imgrank/page/2/'
for pageNum in range(2, 4):
nu_url=format(url % pageNum )
# 用format:格式 函数,format返回的字符串把它赋值给new_url
page_text = requests.get( url=nu_url, headers=headers ).text
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src_list = re.findall(ex, page_text, re.S)
print(img_src_list) # 得到一页的图片url列表
# 将列表当中的每一个图片地址单独的进行一个get请求,下面便利列表
for src in img_src_list:
# 拼接出一个完整图片url地址
src = 'http:'+src
img_data = requests.get(url=src, headers=headers).content # 图片是二进制的响应数据content
# 将图片的名称根据/切分要/后面的名称
# 指定图片的路径,文件夹的名称加上图片名称,[-1]就是后面的.jpg
img_path = './qiutu1'+img_name
with open(img_path, 'wb') as fp:
fp.write(img_data)
print(img_name, '下载成功')