xpath方法爬取简历模板https://sc.chinaz.com/jianli/

这个运行出来什么文件都没有，直接就结束了，能看下是哪里出现了问题吗？


# 需求：下载简历模板（分页）https://sc.chinaz.com/jianli/
import requests
from lxml import etree
import os
# 爬取首页源码
if not os.path.exists('./all_resume_jar'):
    os.mkdir('./all_resume_jar')
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:96.0) Gecko/20100101 Firefox/96.0'
}
count = 1
for count in range(1, 3):
    url = 'https://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&issale=&classID=864&page={}'.format(count)
    page_text = requests.get(url=url, headers=headers).text
    tree = etree.HTML(page_text)

    div_list = tree.xpath('//div[@class="main_list jl_main masonry"]/div')
    for div in div_list:
        detail_url = 'https:'+div.xpath('./a/@href')[0]
        title = div.xpath('./p/a/text()')[0]+'.rar'
        title = title.encode('iso-8859-1').decode('gbk')  # 解决中文乱码问题
        detail_page_text = requests.get(url=detail_url, headers=headers).text
        detail_tree = etree.HTML(detail_page_text)
        rar_download_href = detail_tree.xpath('//ul[@class="clearfix"]/li[9]/a/@href')[0]
        rar_download_data = requests.get(url=rar_download_href, headers=headers).content
        rar_path = './all_resume_jar/'+title
        f1 = open(rar_path, 'wb')
        f1.write(rar_download_data)
        print(title, '下载完成第'+str(count)+'页')
        f1.close()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
陈.py 2022-01-28 09:25
关注
我发现etree之后xpath路径有变化，我打印出page_text后重新找了xpath路径，之后成功爬到了
第18行改为div_list = tree.xpath('//*[@id="container"]/div')就可以了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用 Python 爬取某网站简历模板（bs4/lxml+协程）
2024-12-09 10:10

干中学26的博客在本教程中，我们将学习如何使用 Python 来爬取站长素材网站上的简历模板。我们将使用requests和库来发送 HTTP 请求和解析 HTML 页面。本教程将分为两个部分：第一部分是使用的方法，第二部分是使用lxml的方法，并...
1-11 requests模块之爬取简历模板（xpath解析）
2022-04-12 10:06

LovelessLord的博客 # 目标网站：https://sc.chinaz.com/jianli/free.html from lxml import etree import requests # 获取网页源代码： def get_page_source_code(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0;...
python爬虫爬取免费简历模板实例
2021-07-20 15:50

备马、上任鹅城的博客爬取目标网站https://sc.chinaz.com/jianli/free.html 思路思路捋清，直接上代码 # -*- codeing = utf-8 -*- # @Time : 2021/7/20 10:13 # @Author : ArthurHuang # @File : 10_xpath解析案例_站长...
python个人简历爬取_python 爬取免费简历模板网站的示例
2020-12-03 13:38

weixin_39628498的博客代码# 免费的简历模板进行爬取本地保存# ......
爬虫项目二十一：需要简历吗？用Python轻松爬下上千份简历模板
2021-04-13 13:20

@lizhihang的博客用Python对站长之家的上千个简历模板批量爬取保存提示：以下是本篇文章正文内容，下面案例可供参考一、获取详情页url 我们进入站长之家的免费模板网站 https://sc.chinaz.com/jianli/free.html 进行翻页观察...
网络爬虫爬取简历模板案例
2023-08-02 05:31

北·海的博客测试期间,只爬取了一页建立,想要爬取所有的简历模板只需要改动url = 'https://sc.chinaz.com/jianli/free.html',加上相应的参数,用循环套起来即可。
python用requests库和xpath爬取站长素材的免费简历模板
2022-07-14 23:42

囧粥的博客用python里的requests和xpath批量下载
Python爬取网站数据
2024-03-17 20:08

Vermouth-1的博客 Python爬取网站数据前言什么是爬虫？通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程爬虫合法还是违法？在法律上是不被禁止的但是也有违法风险爬虫带来的风险可以体现在如下2方面爬虫...
xpath应用(二）站长网站简历下载爬取
2021-05-17 17:20

离落想AC的博客我想用https://sc.chinaz.com/jianli/主网站爬取下载简历，不过我在爬取的过程中一直出现错误。换成了子网站就可以了https://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&classID=864；两个...
爬虫简历网（练习）
2024-07-22 12:28

灰太狼的大表哥的博客一、目标网站： url=https://sc.chinaz.com/jianli/free.html 二、获取每一个简历模板的url和名称 import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月28日

xpath方法爬取简历模板https://sc.chinaz.com/jianli/

1条回答 默认 最新

问题事件

1条回答默认最新