Python爬虫xpath是正确的但是不起作用


import urllib.request
from lxml import etree
#https://sc.chinaz.com/tupian/meinvtupian.html
#https://sc.chinaz.com/tupian/meinvtupian_2.html
def creat_request(page):
    if(page == 1):
        url = 'https://sc.chinaz.com/tupian/meinvtupian.html'
    else:
        url = 'https://sc.chinaz.com/tupian/meinvtupian_'+str(page)+'.html'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
    }
    request = urllib.request.Request(url=url, headers=headers)
    print(url)
    return request
def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content
def down_load(content):
#   下载图片
    #urllib.request.urlretrieve('图片地址','文件名字')
    tree = etree.HTML(content)
    name_list = tree.xpath('//div[@class="item masonry-brick"]/img/@alt')
#设计图片的网站会进行懒加载
    src_list = tree.xpath('//div[@class="item masonry-brick"]/img/@src2')

    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        url = 'https:'+src
        print(name,url)
        urllib.request.urlretrieve(url=url, filename=name+'.jpg')


if __name__ == '__main__':
    start_page = int(input("起始页码"))
    end_page = int(input("结束页码"))
    for page in range(start_page,end_page+1):
        #请求对象的定制
        request = creat_request(page)
        #获取源码
        content = get_content(request)
        #下载
        down_load(content)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-11-18 08:47
关注
【以下回答由 GPT 生成】

import requests from bs4 import BeautifulSoup import os def download_images(url, folder): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') img_tags = soup.find_all('img') for img in img_tags: img_url = img['src'] img_name = img['alt'] full_img_url = 'https:' + img_url img_data = requests.get(full_img_url).content with open(os.path.join(folder, img_name + '.jpg'), 'wb') as f: f.write(img_data) if __name__ == '__main__': start_page = int(input("起始页码")) end_page = int(input("结束页码")) folder_name = input("请输入文件夹名称：") if not os.path.exists(folder_name): os.makedirs(folder_name) for page in range(start_page, end_page + 1): if page == 1: url = 'https://sc.chinaz.com/tupian/meinvtupian.html' else: url = f'https://sc.chinaz.com/tupian/meinvtupian_{page}.html' download_images(url, folder_name)

通过上述代码，我对你的Python代码进行了修改，首先使用requests库和BeautifulSoup库替代了urllib库和lxml库，因为这两个库在处理网页爬取和解析的时候更加方便和有效。接着通过对每个图片的src和alt属性进行解析，将图片下载到指定的文件夹中。最后，通过输入起始页码、结束页码和文件夹名称，运行爬虫并下载图片。

希望我的回答能够解决你的问题，如果还有其他疑问，欢迎继续提问。

【相关推荐】

你可以看下这个问题的回答https://ask.csdn.net/questions/862249
这篇博客你也可以参考下：【Python 爬虫】XPath的简单使用
您还可以看一下李飞老师的Python数据分析与爬虫课程中的 Python爬虫：XPath常见用法小节, 巩固相关知识点
除此之外, 这篇博客: Python爬虫2.2 — xpath用法教程中的 选取未知节点 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫实战之xpath解析
2022-08-01 19:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 1 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
有谁能够解答吗 Python爬虫 XPath python 爬虫
2021-11-21 00:19

回答 2 已采纳你需要先确定返回的响应内容中有没有这些分类信息，有的话则是xpath没写对。没有分类信息的话，需要在请求时构造和浏览器相同的请求头信息。爬虫逆向社区-爬虫逆向论坛-
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
python爬虫之xpath入门
2024-03-19 23:24

hjc_042043的博客 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。使用chrome 插件选择标签时候，选中时，选中的标签会添加属性class=“xh-highlight”
爬虫xpath获取不到数据 python 爬虫
2022-12-12 01:38

回答 2 已采纳数据有可能是动态加载的，你没有爬到，先打印整个页面内容，搜索一下看有没有你需要的内容，没有的话，那内容就是动态加载的，request肯定爬取不到，那xpath肯定就提取不了呗！1.对于动态加载的数据，
python使用xpath提取属性值不完整 python 爬虫
2022-05-30 23:15

回答 2 已采纳不知道是不是有个逗号的原因，然后把后面给截断了，可以试试正则去提取 import requests,re url = 'https://www.renren.com/login' rep=reque
xpath爬取图片，得不到src ，python求解决 python 有问必答爬虫
2022-01-27 12:25

回答 4 已采纳图片是js解析出来的，xpath无效，数据在js变量里面，正则提取下数据用json.loads加载获取代码如下 import requests import re import json def
Python编程基础-第14章-网络爬虫
2024-06-15 07:45

通过本章节的学习，我们了解了网络爬虫的基本概念及其工作流程，并学习了如何使用Python语言进行网页的抓取和解析。同时，我们也探讨了网页的基础知识以及如何使用Python发送HTTP请求。最后，我们还讨论了一些常见的...
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
Python爬虫-XPath学习
2022-08-25 23:46

~小黎同学~的博客虽然XPath代码比正则简单，但是遇到复杂饿节点写起来还是很肥脑子，接下来我们使用谷歌浏览器获取XPath代码，现在我们进入百度首页（https://www.baidu.com），然后右键点击检测按钮即可查看HTML代码，假设要爬取”...
Python爬虫之XPath解析库
2022-11-04 14:16

戎笔的博客 XPath，全称XML Path Language，即XML路径语言，拥有简单明了的路径选择表达式，提供有100个内建函数，实现对字符串、数值、时间的匹配以及节点、序列的处理。应用于在XML文档中查找信息的语言，适用于HTML文档的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月17日

悬赏问题

¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振

Python爬虫xpath是正确的但是不起作用

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新