在Python中xpath爬图片src有问题

在xpath显示正常

Python执行就有问题，src前面有 .. 整个也不一样

尝试换种方式还是不行，直接报错

import urllib.request
from lxml import etree

def create_request(page):
    if(page==1):
        url = 'https://sc.chinaz.com/tupian/fengjing.html'
    else:
        url = 'https://sc.chinaz.com/tupian/fengjing_'+ str(page) + '.html'

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42'
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(content):
    tree = etree.HTML(content)
    name_list = tree.xpath('//div[@class="container"]//div/img/@alt')
    src_list = tree.xpath('//div[@class="container"]//div/img/@src')
    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        url = 'https:' + src
        print(name, url)
        # urllib.request.urlretrieve(url=url,filename='./fengjing/' + name + '.jpg')

if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束页'))

    for page in range(start_page,end_page+1):
        request = create_request(page)
        content = get_content(request)
        down_load(content)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

7*24 工作者 2022-09-27 09:34

关注



import urllib.request
from lxml import etree


def create_request(page):
    if (page == 1):
        url = 'https://sc.chinaz.com/tupian/fengjing.html'
    else:
        url = 'https://sc.chinaz.com/tupian/fengjing_' + str(page) + '.html'
    ##请求头中我添加Host和Refer参数，也是防止反爬的一种手段
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42',
        'Host':'sc.chinaz.com',
        'Refer':'https://sc.chinaz.com/tupian/fengjing.html'
    }
    request = urllib.request.Request(url=url, headers=headers)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content


def down_load(content):
    tree = etree.HTML(content)
    name_list = tree.xpath('//div[@class="container"]//div[contains(@class,"item")]//img')
    # 我试过用 @src 属性获取值，但是和我想要结果不一样，所以下面就用 @data-original 获取图片的url地址
    for item in name_list:
        img_name = item.xpath( './@alt' )[0]
        img_url ='https:' +  item.xpath( './@data-original' )[0]
        print(img_name,img_url)
        urllib.request.urlretrieve(url=img_url, filename='./fengjing/' + img_name + '.jpg')


if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束页'))

    for page in range(start_page, end_page + 1):
        request = create_request(page)
        content = get_content(request)
        down_load(content)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

Python爬虫实战之xpath解析
2022-08-01 19:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
基于Python爬虫实现百度图片自动下载
2024-05-02 11:28

例如，如果我们发现图片链接通常包含在`<img>`标签的`src`属性中，我们可以编写正则表达式或XPath表达式来匹配这一模式。然后，**编写Python爬虫代码**。Python有许多库可以支持网络爬虫的开发，其中最常用的是`...
Python爬虫图片懒加载技术 selenium和PhantomJS解析
2020-09-18 15:37

在实际的爬虫编程中，可以首先利用Selenium打开目标网页，然后等待页面加载完成，再通过Selenium的API获取元素，读取那些存储在伪属性中的图片链接。此外，还应该注意模拟用户滚动页面的操作，以触发懒加载图片的...
python利用urllib和xpath爬取并保存图片
2024-04-25 17:36

学习那点事的博客在学习的python中，本人利用urllib和xpath实现了一个爬取网页图片的代码，其中以爬取“站长素材”网站的图片为例。小白页可以轻松看得懂。在代码中也给出了详细注释，只要进行轻微修改就可以去爬取需要的资源。希望...
Python爬虫学习笔记_DAY_21_Python爬虫之xpath实战_批量下载高清美女图片【Python爬虫】
2022-02-08 23:04

跳探戈的小龙虾的博客 p.s....站长素材是国内最优质的几个素材网站，而且本次爬虫的目标图片完全免费开放，因此不涉及任何版权问题(求生欲！) 下图是部分的图片展示： II.查找接口并做xpath解析根据以往的经验，第一步
Python示例源码-python爬取图片源代码-大作业.zip
2025-05-25 21:30

在众多的编程语言中，Python凭借其简洁易读的语法和强大的第三方库支持，成为了数据分析、自动化处理、网络爬虫等领域的首选语言。本次分享的是一份关于Python网络爬虫的示例源码，特别针对图片内容的爬取，这在游戏...
百度图片爬取_爬取_爬取图片_爬虫_python爬_python_
2021-09-29 02:09

在Python编程领域，爬虫是一项重要的技能，尤其对于数据挖掘和数据分析来说，它能帮助我们自动获取网络上的大量信息。本篇文章将详细讲解如何利用Python爬取指定关键词的百度图片，涉及的知识点包括网络爬虫的基本...
Python爬虫，用xpath爬取豆瓣电影！
2024-11-20 15:40

Python_trys的博客 response.concent:返回的是一个原生的字符串，就是从网页上抓取下来的，没有经过解码的字符串，是bytes类型。response.text:返回的是一个...2.头信息（有时候可不写）.// 在当前标签下下获取。./ 在当前标签下获取。
python 实现一个贴吧图片爬虫的示例
2020-09-21 03:16

标题中的“python 实现一个贴吧图片爬虫的示例”是指使用Python编程语言编写一个能够自动抓取百度贴吧中图片的程序。这个示例旨在帮助读者理解如何利用Python的网络爬虫技术，结合相关的库来下载网页上的图片。描述...
新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频.zip
2023-08-24 19:19

在本资源中，我们主要探讨的是如何利用Python编程语言实现一个针对新浪微博的网络爬虫，以便获取微博数据，包括微博的文字内容、图片和视频。这是一个非常实用的技术，可以帮助数据分析人员、社交媒体研究人员或...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月27日

在Python中xpath爬图片src有问题

5条回答 默认 最新

问题事件

5条回答默认最新