เสี่ยวเหลียงจุ๊บ 2022-01-04 22:56 采纳率: 100%
浏览 52
已结题

python 网络爬虫 怎么保存 下载到本地硬盘

img


问题遇到的现象和发生背景

问题相关代码,请勿粘贴截图


# 导入包
import requests
import re

# 请求网址
url = "https://www.vmgirls.com/18236.html"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp = requests.get(url, headers=headers)
html = resp.text
# 解析网址
urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
print(urls)

for url in urls:                    #先遍历这个列表,
    new_url = 'https:' + url[0]     #然后拿到元祖的第零个元素,
    print(new_url, url[1])          #给这个链接的字符串拼接上http

文件保存到本地 硬盘

  • 写回答

1条回答 默认 最新

  • 爱音斯坦牛 全栈领域优质创作者 2022-01-04 22:59
    关注
    
    #导入包
    import requests
    import re
    import os
    #如果当前项目下有名为美女图片的文件夹,则不创建,么有则创建
    if not os.path.exists('美女图片'):
        os.mkdir('美女图片')
    #请求网址
    url = "https://www.vmgirls.com/18236.html"
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
    resp = requests.get(url, headers=headers)
    html = resp.text
    #解析网址
    urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
    # print(urls)
    for url in urls:
        img_url = 'https:' + url[0]
        img_name = img_url.split("/")[-1]  # split函数对字符串切割,返回一个列表,我这里是以“/”切割,取带.jpeg的为文件名,符合图片文件后缀名要求
        #print(img_url,img_name)
        img_data = requests.get(url=img_url, headers=headers).content
        img_path = "美女图片/"+img_name
        #将图片存在“美女图片”文件夹下
        with open(img_path,'wb') as fp:
                fp.write(img_data)
        print(img_name,'下载成功')
    
    

    img


    记得采纳哦!!!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月12日
  • 已采纳回答 1月4日
  • 创建了问题 1月4日

悬赏问题

  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
  • ¥15 Windows11, backspace, enter, space键失灵