2401_83481032 2024-05-27 17:28 采纳率: 42.9%
浏览 10

用Requests库采集图片

需求:利用Requests库采集图片,图片地址如下
https://www.qqtn.com/tp/wmtp 1.html

要求:
1.采集10页的图片(包含该图片的详情页图片)并进行保存

详情页图片:就是网址第一张照片里面的div里面的div

  • 写回答

2条回答 默认 最新

  • 阿里嘎多学长 2024-05-27 17:28
    关注

    以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳:


    要使用Python的Requests库来采集网页中的图片,你可以按照以下步骤进行:

    1. 发送HTTP请求:使用Requests库获取网页内容。
    2. 解析网页:使用BeautifulSoup库解析网页,提取图片URL。
    3. 下载图片:对于每个图片URL,发送HTTP请求下载图片。
    4. 保存图片:将下载的图片保存到本地。

    以下是一个基本的代码实现示例:

    import requests
    from bs4 import BeautifulSoup
    import os
    
    # 创建保存图片的目录
    if not os.path.exists('downloaded_images'):
        os.makedirs('downloaded_images')
    
    def download_image(image_url, folder):
        response = requests.get(image_url)
        if response.status_code == 200:
            with open(os.path.join(folder, image_url.split('/')[-1]), 'wb') as f:
                f.write(response.content)
    
    def scrape_images_from_page(url):
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        images = soup.find_all('img')
        for img in images:
            img_url = img.get('src')
            if img_url:
                download_image(img_url, 'downloaded_images')
    
    def scrape_images_from_site(base_url, num_pages):
        for i in range(1, num_pages + 1):
            page_url = f"{base_url}.html"  # 假设URL格式是base_url加上页码
            scrape_images_from_page(page_url)
    
    # 采集10页图片
    base_url = 'https://www.qqtn.com/tp/wmtp'
    scrape_images_from_site(base_url, 10)
    
    # 采集详情页图片
    # 假设详情页URL可以通过某种方式获得,这里以base_url为例
    details_page_url = 'https://www.qqtn.com/tp/wmtp1.html'
    scrape_images_from_page(details_page_url)
    

    请注意,这个代码只是一个示例,实际使用时需要根据网页的具体结构调整解析规则。另外,由于网页结构可能随时变化,代码可能需要定期更新以适应这些变化。

    参考资料

    注意事项

    • 在进行网页爬取时,请确保遵守目标网站的robots.txt文件规定,尊重网站的爬虫政策。
    • 确保你的行为符合当地法律法规,不要进行非法的数据采集。
    • 考虑到网站的负载,合理控制请求频率,避免对网站服务器造成过大压力。
    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 5月27日

悬赏问题

  • ¥15 35114 SVAC视频验签的问题
  • ¥15 impedancepy
  • ¥15 在虚拟机环境下完成以下,要求截图!
  • ¥15 求往届大挑得奖作品(ppt…)
  • ¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
  • ¥50 浦育平台scratch图形化编程
  • ¥20 求这个的原理图 只要原理图
  • ¥15 vue2项目中,如何配置环境,可以在打完包之后修改请求的服务器地址
  • ¥20 微信的店铺小程序如何修改背景图
  • ¥15 UE5.1局部变量对蓝图不可见