python入门爬虫，爬不出来图片。

为什么爬不了来图片呀，爬不出来。


def download_jpg(url):
    response = urllib.request.urlopen(url)
    html = response.read().decode()
    pattern = 'src="(https://st-cn\.meishij\.net/.+?\.jpg)"'
    image_urls = re.findall(pattern,html)

    i=0
    for url in image_urls:
        urllib.request.urlretrieve(url,"/home/aistudio/data/1/img{:04d}.jpg".format(i))
        i += 1
        print(url)
        print("download successfully")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

7*24 工作者 2021-10-12 16:03

关注

在爬虫过程中，最好把请求头添加上

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import re,requests
from urllib.request import urlretrieve

url = 'https://www.meishij.net/zuofa/zhuduji_7.html'
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36",
    "Refer":'https://www.meishij.net/',
    "Host":"www.meishij.net",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
}


def download_jpg(url):
    html = requests.get(url,headers=headers).content.decode('utf-8')
    pattern = 'src="(https://st-cn\.meishij\.net/.+?\.jpg)"'
    image_urls = re.findall(pattern, html)
    count = 0
    for image_url in image_urls:
        print(image_url)
        name = image_url.rsplit('/', 1)[1]
        urlretrieve(image_url, name)
        # urlretrieve(image_url, '/home/aistudio/data/1/img{}'.format(name))
        count += 1
        print("download successfully")
    print(count)

if __name__ == '__main__':
    url = 'https://www.meishij.net/zuofa/zhuduji_7.html'
    download_jpg(url)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

python入门爬虫，爬不出来图片。 python
2021-10-12 15:12

回答 2 已采纳在爬虫过程中，最好把请求头添加上 #!/usr/bin/env python # -*- coding:utf-8 -*- import re,requests from urllib.reques
python入门爬虫时的问题 python
2019-04-17 07:37

回答 3 已采纳这是一种反爬手段，只有在浏览器打开，或者模拟浏览器打开，才能看到这些内容。可以学一下selenium库，专门针对动态页面的爬取
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
python爬虫爬虫贴吧图片的实例
2023-01-25 20:48

python爬虫入门基础代码实例和1个简单的python爬虫爬虫贴吧图片的实例代码中给出了注释，并且可以直接运行 python爬虫主要操作步骤：获取网页html文本内容；分析html中图片的html标签特征，用正则解析出所有的...
新手入门python爬虫问题请教，急急急 python
2019-05-01 11:52

回答 1 已采纳 urllib.request.urlopen('https://python.org')
python爬虫入门 python 有问必答
2021-07-01 19:02

回答 3 已采纳 1.在soup=BeautifulSoup(htm,'lxml')里的hml加上text,即写成htm.text 2.在最后，写上main(),调用main(),运行程序。
python爬虫入门问题 python 有问必答
2021-06-16 16:50

回答 3 已采纳有两个错误的地方，一是在askURL函数里，不要把return html放到except里,否则没有异常时返回为None，将其写成与try,except对齐；二是在函数 getData里，for循环
Python 入门爬虫和数据分析实战
2023-08-16 18:43

Python 入门爬虫和数据分析实战
Python爬虫入门 html5 javascript python
2020-12-11 23:58

回答 6 已采纳爬虫入门先学python语法，之后就是各种爬虫库了，入门到提高可以看下这篇文章我用#CSDN#这个app发现了有技术含量的博客，小伙伴们求同去《Python爬虫100例教程导航帖（已完结）》, 一起来
python爬虫入门请教问题 python 有问必答
2021-03-29 21:25

回答 4 已采纳你只是爬了个静态的，网页还有很多动态元素；有一些是相对路径的，在对方的服务器上，你本地无法加载到。你看百度的快照，跟你这种差不多，如果你想完全一样的页面，除了一些小网站，其他基本不可能。
爬虫网站的到来，还有没有必要学Python爬虫 python
2022-07-21 23:31

回答 3 已采纳爬虫入门简单,精通难,一般人都是学了个入门就放弃了,连js的门槛都难以摸到.不过你要是有时间还是可以学的,我之前学过两个月就去接单了,小赚了1w.不过切记,爬虫学的好,牢饭吃到饱啊!!!
Python入门网络爬虫之精华版
2015-08-19 12:59

Python学习网络爬虫主要分3个大的版块：抓取，分析，存储另外，比较常用的爬虫框架Scrapy，这里最后也介绍一下。先列举一下相关参考：宁哥的小站-网络爬虫
python进行爬虫小记
2023-01-15 19:09

python进行爬虫小记，主要用于python快速入门理解。
python入门爬虫题目-100道(1).zip
2024-04-16 12:36

python入门
爬虫python入门.txt
2024-04-25 08:38

爬虫python入门
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月12日

悬赏问题

¥15 WPF 大屏看板表格背景图片设置
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示

python入门爬虫，爬不出来图片。

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新