xpath爬虫解析站长

import urllib.request
from lxml import etree
def create_request(page):
    if(page==1):
        url='https://sc.chinaz.com/tupian/shanshuitupian.html'
    else:
        url ='https://sc.chinaz.com/tupian/shanshuitupian_'+str(page)+'.html'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0',
        'Cookie':'cz_statistics_visitor = 0feda378 - 4c8f - a225 - 7a91 - 755c228c51fb;_clck = 1jn4eo3 % 7C2 % 7Cfkx % 7C0 % 7C1565;__gads = ID = b9ca106bba83c1c6:T = 1713111545:RT = 1713111545:S = ALNI_MYXYNBp9CApMOsDFxHnXQoocoLPXQ;__gpi = UID = 00000debfd2f75d9: T = 1713111545:RT = 1713111545:S = ALNI_MaWelFfZUAHAN3ee1wOLzGOFB05KA;__eoi = ID = bd66e9b7043bae01:T = 1713111545:RT = 1713111545:S = AA - Afjak04XLL - 3r2QGac86IgZ5W;_clsk = xn6u0n % 7C1713112855925 % 7C3 % 7C1 % 7Ch.clarity.ms % 2Fcollect;Hm_lvt_398913ed58c9e7dfe9695953fb7b6799 = 1713111487, 1713115404, 1713154098;Hm_lpvt_398913ed58c9e7dfe9695953fb7b6799 = 1713154098'
    }
    request = urllib.request.Request(url=url, headers=headers)
    return request


def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(content):
    tree=etree.HTML(content)
    name_list= tree.xpath('//div[@class="item masonry-brick"]//img/@alt')
    pic_list= tree.xpath('//div[@class="item masonry-brick"]//img/@data-original')
    for i in range(len(name_list)):
        name =name_list[i]
        pic =pic_list[i]
        url='https:' +pic
        urllib.request.urlretrieve(url=url,filename=name + '.jpg')



if __name__ == '__main__':
    start_page=int(input('请输入起始页码'))
    end_page=int(input('请输入结束页码'))
    for page in range(start_page,end_page+1):
        request=create_request(page)
        content=get_content(request)
        down_load(content)

不报错但是无法下载图片

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-15 17:14

关注

引自免费微信小程序：皆我百晓生

经过分析您的代码，我发现问题出在图片下载的部分。urllib.request.urlretrieve() 方法可能由于网站的安全设置、请求头或者其他原因导致无法正确下载图片。为了解决这个问题，我们可以尝试使用 requests 库替换 urllib.request，因为 requests 提供了更强大的功能，并且可以处理一些复杂的情况。

以下是修改后的代码：

import requests
from bs4 import BeautifulSoup
import os

def create_headers():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0',
        'Cookie':'cz_statistics_visitor = 0feda378 - 4c8f - a225 - 7a91 - 755c228c51fb;_clck = 1jn4eo3 % 7C2 % 7Cfkx % 7C0 % 7C1565;__gads = ID = b9ca106bba83c1c6:T = 1713111545:RT = 1713111545:S = ALNI_MYXYNBp9CApMOsDFxHnXQoocoLPXQ;__gpi = UID = 00000debfd2f75d9: T = 1713111545:RT = 1713111545:S = ALNI_MaWelFfZUAHAN3ee1wOLzGOFB05KA;__eoi = ID = bd66e9b7043bae01:T = 1713111545:RT = 1713111545:S = AA - Afjak04XLL - 3r2QGac86IgZ5W;_clsk = xn6u0n % 7C1713112855925 % 7C3 % 7C1 % 7Ch.clarity.ms % 2Fcollect;Hm_lvt_398913ed58c9e7dfe9695953fb7b6799 = 1713111487, 1713115404, 1713154098;Hm_lpvt_398913ed58c9e7dfe9695953fb7b6799 = 1713154098'
    }
    return headers

def download_image(url, filename):
    response = requests.get(url, headers=create_headers(), stream=True)
    if response.status_code == 200:
        with open(filename + '.jpg', 'wb') as f:
            for chunk in response.iter_content(1024):
                f.write(chunk)

def get_content_and_download_images(page, start_page, end_page):
    url = 'https://sc.chinaz.com/tupian/shanshuitupian_' + str(page) + '.html'
    headers = create_headers()
    response = requests.get(url, headers=headers)
    
    soup = BeautifulSoup(response.text, 'lxml')
    item_elements = soup.select('.item.masonry-brick img')

    for i, element in enumerate(item_elements):
        alt = element['alt']
        data_url = element['data-original']
        filename = f'image_{start_page}_{end_page}_{i}'
        download_image(data_url, filename)

if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束页码'))

    # 创建用于存储图片的目录，如果不存在的话
    if not os.path.exists("images"):
        os.makedirs("images")

    for page in range(start_page, end_page + 1):
        print(f"正在下载第 {page} 页...")
        get_content_and_download_images(page, start_page, end_page)
        print(f"第 {page} 页下载完成.")

这段代码做了以下更改：

使用 requests 库替代 urllib.request 进行网络请求。
添加了一个 create_headers() 函数来管理请求头。
创建了一个新的函数 download_image() 来专门负责下载单个图片。
在 get_content_and_download_images() 函数中，使用 BeautifulSoup 解析 HTML 并提取图片信息，然后调用 download_image() 下载图片。

确保在运行此代码之前已经安装了 beautifulsoup4 和 requests 库。如果没有安装，可以使用以下命令进行安装：

pip install beautifulsoup4 requests

现在，您可以按照提示输入起始页码和结束页码，程序将开始下载图片。如果遇到任何错误，请告诉我具体错误信息以便进一步排查。

编辑记录

报告相同问题？

关注问题

python爬虫之数据解析
2023-04-18 17:49

人间试炼游戏的博客本文主要介绍如何使用bs4和xpath以及正则表达式进行python爬虫数据解析
Python爬虫学习笔记_DAY_21_Python爬虫之xpath实战_批量下载高清美女图片【Python爬虫】
2022-02-08 23:04

跳探戈的小龙虾的博客 p.s....站长素材是国内最优质的几个素材网站，而且本次爬虫的目标图片完全免费开放，因此不涉及任何版权问题(求生欲！) 下图是部分的图片展示： II.查找接口并做xpath解析根据以往的经验，第一步
Python爬虫图片懒加载技术 selenium和PhantomJS解析
2020-09-18 15:37

例如，在上述内容中提到的爬取站长素材网站的案例中，使用requests库和lxml库进行爬取操作时，虽然能够获取到图片的名称，但图片链接却为空，即使使用正确的XPath表达式也未能正确获取到链接。这说明图片的URL并没有...
Python爬虫的解析（学习于b站尚硅谷）
2023-08-07 09:23

知乎云烟的博客本文是本人在b站上学习尚硅谷的Python爬虫教程小白零基础速通的，关于爬虫部分后记录的笔记。
python利用urllib和xpath爬取并保存图片
2024-04-25 17:36

学习那点事的博客在学习的python中，本人利用urllib和xpath实现了一个爬取网页图片的代码，其中以爬取“站长素材”网站的图片为例。小白页可以轻松看得懂。在代码中也给出了详细注释，只要进行轻微修改就可以去爬取需要的资源。希望...
python 爬虫代码
2023-03-09 21:49

qq_繁华的博客 python 爬虫代码
Python爬虫基础（二）：使用xpath与jsonpath解析爬取的数据
2023-09-12 11:06

秃了也弱了。的博客 JsonPath只能解析json文件，而不是像xpath既可以解析文件，也可以直接解析字符串。所以说，想要使用JsonPath解析JSON，只能将爬取的json数据保存到本地之后，才能进行解析。XPathJSONPath表示根元素当前元素. or []...
20行Python代码爬取2W多条音频文件素材【内附源码+详细解析】新媒体创作必备
2021-07-12 16:31

五包辣条！的博客大家好，我是辣条。今天的内容稍显简单，不过对于新媒体创作的朋友们还是很有帮助的，你能用上的话记得给辣条三连！爬取目标网站：站长素材 ...项目思路解析 ...获取到网页源代码通过xpath方
尚硅谷python爬虫（二）-解析方法
2021-10-20 22:51

D_lullaby的博客一、xpath解析所谓解析，是帮助我们获取网页源码中部分数据的一种方式。
Python网络爬虫课程设计
2023-08-15 12:07

【Python网络爬虫课程设计】是一门以Python编程语言为基础，专注于网络数据抓取和分析的实践性课程。本课程的目标是通过爬取并分析特定网站的数据，例如“站长之家”上的分类信息网站排行榜，来了解各类网站的影响力...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月15日

xpath爬虫解析站长

4条回答 默认 最新

问题事件

4条回答默认最新