เสี่ยวเหลียงจุ๊บ 2022-01-04 22:56 采纳率: 100%
浏览 52
已结题

python 网络爬虫 怎么保存 下载到本地硬盘

img


问题遇到的现象和发生背景

问题相关代码,请勿粘贴截图


# 导入包
import requests
import re

# 请求网址
url = "https://www.vmgirls.com/18236.html"
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp = requests.get(url, headers=headers)
html = resp.text
# 解析网址
urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
print(urls)

for url in urls:          #先遍历这个列表,
  new_url = 'https:' + url[0]   #然后拿到元祖的第零个元素,
  print(new_url, url[1])     #给这个链接的字符串拼接上http

文件保存到本地 硬盘

 • 写回答

1条回答 默认 最新

 • 爱音斯坦牛 全栈领域优质创作者 2022-01-04 22:59
  关注
  
  #导入包
  import requests
  import re
  import os
  #如果当前项目下有名为美女图片的文件夹,则不创建,么有则创建
  if not os.path.exists('美女图片'):
    os.mkdir('美女图片')
  #请求网址
  url = "https://www.vmgirls.com/18236.html"
  headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
  resp = requests.get(url, headers=headers)
  html = resp.text
  #解析网址
  urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
  # print(urls)
  for url in urls:
    img_url = 'https:' + url[0]
    img_name = img_url.split("/")[-1] # split函数对字符串切割,返回一个列表,我这里是以“/”切割,取带.jpeg的为文件名,符合图片文件后缀名要求
    #print(img_url,img_name)
    img_data = requests.get(url=img_url, headers=headers).content
    img_path = "美女图片/"+img_name
    #将图片存在“美女图片”文件夹下
    with open(img_path,'wb') as fp:
        fp.write(img_data)
    print(img_name,'下载成功')
  
  

  img


  记得采纳哦!!!

  本回答被题主选为最佳回答 , 对您是否有帮助呢?
  评论

报告相同问题?

问题事件

 • 系统已结题 1月12日
 • 已采纳回答 1月4日
 • 创建了问题 1月4日

悬赏问题

 • ¥50 易语言把MYSQL数据库中的数据添加至组合框
 • ¥20 求数据集和代码#有偿答复
 • ¥15 关于下拉菜单选项关联的问题
 • ¥20 java-OJ-健康体检
 • ¥15 rs485的上拉下拉,不会对a-b<-200mv有影响吗,就是接受时,对判断逻辑0有影响吗
 • ¥15 使用phpstudy在云服务器上搭建个人网站
 • ¥15 应该如何判断含间隙的曲柄摇杆机构,轴与轴承是否发生了碰撞?
 • ¥15 vue3+express部署到nginx
 • ¥20 搭建pt1000三线制高精度测温电路
 • ¥15 使用Jdk8自带的算法,和Jdk11自带的加密结果会一样吗,不一样的话有什么解决方案,Jdk不能升级的情况