爱棠巴巴 2021-12-29 15:40 采纳率: 33.3%
浏览 32
已结题

学习pythone爬虫爬取免费简历为什么下载到文件夹的文件不是rar格式

本来现在pythone爬虫,学习的一个案例中爬取某网站免费简历模版,自己写的代码如下


```python
import requests
from lxml import etree
import os

url = 'https://sc.chinaz.com/jianli/free.html'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
# with open('./jianli.html','w',encoding='utf-8') as fp:
#  fp.write(page_text)
a_list = tree.xpath('//div[@id="container"]/div/a')
if not os.path.exists('./resume'):
    os.mkdir('resume')

resume_list = []
for a in a_list:
    resume_src = 'http:'+a.xpath('./@href')[0]
    resume_name = a.xpath('./img/@alt')[0]
    resume_name = resume_name.encode('iso-8859-1').decode('utf-8')
    download_resume_src = resume_src+'#down'
    #print(resume_name,resume_src)
    resume_list.append(download_resume_src)
    #print(download_resume_src)
    download_text = requests.get(url=download_resume_src,headers=headers).text
    tree = etree.HTML(download_text)
    download_list = tree.xpath('.//div[@id="down"]/div[2]/ul/li/a/@href')[0]
    print(download_list)
    download_data = requests.get(url=download_list,headers=headers).content
    resume_path = 'resume/'+ resume_name
    with open(resume_path,'wb') as fp:
     fp.write(download_data)
    print(resume_name,'下载成功!')



运行结果显示:

![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/212653367046156.png "#left")

![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/024883367046193.png "#left")

原网站简历下载格式为.rar,但我执行后文件夹下保存的下载文件不是rar格式。
请教大家给予指点!感谢!

  • 写回答

2条回答 默认 最新

  • CSDN专家-showbo 2021-12-29 15:45
    关注
        resume_path = 'resume/'+ resume_name+".rar"#后缀加上
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月8日
  • 已采纳回答 12月31日
  • 创建了问题 12月29日

悬赏问题

  • ¥15 数据库获取信息反馈出错,直接查询了ref字段并且还使用了User文档的_id而不是自己的
  • ¥15 将安全信息用到以下对象时发生以下错误:c:dumpstack.log.tmp 另一个程序正在使用此文件,因此无法访问
  • ¥15 速度位置规划实现精确定位的问题
  • ¥15 代码问题:df = pd.read_excel('c:\User\18343\Desktop\wpsdata.xlxs')路径读不到
  • ¥15 为什么视频算法现在全是动作识别?
  • ¥15 编写一段matlab代码
  • ¥15 用Python做岩石类别鉴定软件
  • ¥15 关于调取、提交更新数据库记录的问题
  • ¥15 之前删了盘从下vs2022遇见这个问题 搞了一整天了
  • ¥15 从Freecad中宏下载的DesignSPHysics,出现如下问题是什么原因导致的(语言-python)