无味33 2021-10-12 15:12 采纳率: 63.3%
浏览 51
已结题

python入门爬虫,爬不出来图片。

img


为什么爬不了来图片呀,爬不出来。


def download_jpg(url):
    response = urllib.request.urlopen(url)
    html = response.read().decode()
    pattern = 'src="(https://st-cn\.meishij\.net/.+?\.jpg)"'
    image_urls = re.findall(pattern,html)

    i=0
    for url in image_urls:
        urllib.request.urlretrieve(url,"/home/aistudio/data/1/img{:04d}.jpg".format(i))
        i += 1
        print(url)
        print("download successfully")

  • 写回答

2条回答 默认 最新

  • 7*24 工作者 2021-10-12 16:03
    关注

    在爬虫过程中,最好把请求头添加上

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    
    import re,requests
    from urllib.request import urlretrieve
    
    url = 'https://www.meishij.net/zuofa/zhuduji_7.html'
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36",
        "Refer":'https://www.meishij.net/',
        "Host":"www.meishij.net",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
    }
    
    
    def download_jpg(url):
        html = requests.get(url,headers=headers).content.decode('utf-8')
        pattern = 'src="(https://st-cn\.meishij\.net/.+?\.jpg)"'
        image_urls = re.findall(pattern, html)
        count = 0
        for image_url in image_urls:
            print(image_url)
            name = image_url.rsplit('/', 1)[1]
            urlretrieve(image_url, name)
            # urlretrieve(image_url, '/home/aistudio/data/1/img{}'.format(name))
            count += 1
            print("download successfully")
        print(count)
    
    if __name__ == '__main__':
        url = 'https://www.meishij.net/zuofa/zhuduji_7.html'
        download_jpg(url)
    

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月20日
  • 已采纳回答 10月12日
  • 创建了问题 10月12日

悬赏问题

  • ¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
  • ¥20 软件测试决策法疑问求解答
  • ¥15 win11 23H2删除推荐的项目,支持注册表等
  • ¥15 matlab 用yalmip搭建模型,cplex求解,线性化处理的方法
  • ¥15 qt6.6.3 基于百度云的语音识别 不会改
  • ¥15 关于#目标检测#的问题:大概就是类似后台自动检测某下架商品的库存,在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
  • ¥15 神经网络怎么把隐含层变量融合到损失函数中?
  • ¥15 lingo18勾选global solver求解使用的算法
  • ¥15 全部备份安卓app数据包括密码,可以复制到另一手机上运行
  • ¥20 测距传感器数据手册i2c