python爬虫下载PDF失败

开发了自己的小工具，依据sci-hub平台批量下载文献，大部分文章都能顺利下载。有个别文章下载异常。程序分两步：1、用DOI号进行一次request请求，得到下载链接dl_url；2、根据下载链接dl_url发送request请求，得到pdf文章的内容content，随后二进制写入文档。
程序下载的结果如图：

为一个空白文件，后缀改为.pdf打开，也是异常。


```python
DOI = '10.1617/s11527-007-9226-0'
mingzi = 'Textile reinforced mortar (TRM) versus FRP as strengthening material of URM walls: out-of-plane cyclic loading'
mulu = r"C:\Users\C\Desktop"

headers = {
        'user-agent': '浏览器user-agent',
        'cookie':'浏览器cookie'
    }
url = 'https://sci-hub.st/'
zong_url = url + DOI
r = requests.get(zong_url, headers=headers)
html = BeautifulSoup(r.text, 'html.parser')
weizhui = html.find('button')['onclick'][14:].replace('\'', '')
if 'sci-hub.st' in weizhui:
    dl_url = 'https:' + weizhui
else:
    dl_url = 'https://sci-hub.st' + weizhui
#这一步得到的dl_url在浏览器中输入可以正常下载，但是代码中下载异常
#这一步得到的dl_url为：https://moscow.sci-hub.st/1136/953c6f7d5defb1c69b86a69b2f0499d9/papanicolaou2007.pdf?download=true

#存入文档
myfile = requests.get(dl_url, headers=headers)
dizhi = mulu + r"\{}.pdf".format(mingzi)
with open(dizhi, 'wb') as f:
    f.write(myfile.content)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
sofudage 2023-03-27 14:35
关注
感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python网络爬虫项目开发实战_并发下载_编程案例解析实例详解课程教程.pdf
2023-05-03 11:34

【Python网络爬虫项目开发实战】中的并发下载技术是提高爬虫效率的关键。在传统的爬虫程序中，网页通常是顺序下载的，即一个网页下载完成后才会开始下一个网页的下载。这种方式在处理小型网站时可能足够，但对于大...
Python爬虫实战PDF
2024-10-27 09:01

一、Python爬虫基础概念与工作原理爬虫，即网络蜘蛛，是一个自动获取网页内容的程序。Python爬虫通过模拟浏览器发送网络请求，获取网页HTML代码，再解析网页内容，提取出所需要的数据。Python爬虫的常见工作原理...
Python爬虫环境与爬虫介绍PDF
2025-08-15 09:14

在Python爬虫的世界中，有多种工具和库扮演了重要的角色。例如，Requests库提供了非常方便的接口，让我们能够发送各种HTTP请求，并处理响应；BeautifulSoup和lxml则能够帮助我们解析HTML或XML文档，提取所需的数据；...
通过python爬虫批量下载PDF文件
2020-02-20 13:17

本案例中，我们将讨论如何使用Python爬虫批量下载PDF文件，特别是针对教育类资源，如人教版学生教材。这个过程涉及到了几个关键的技术点，包括网页解析、URL构造、文件下载、重命名以及正则表达式的运用。首先，...
Python网络爬虫项目开发实战_下载缓存_编程案例解析实例详解课程教程.pdf
2023-05-03 11:34

4. `num_retries`: 当下载失败时，重试次数。 5. `cache`: 缓存字典，存储已下载页面的URL和其内容。 `Downloader`类的核心方法是`call`，它负责执行缓存检查和实际的下载操作。如果缓存已经存在并且没有遇到服务器...
python爬虫实战项目开发源码资源.zip
2024-12-05 11:05

在众多Python爬虫项目中，一个名为“spider-master”的项目脱颖而出，成为一个备受关注的实战开发资源。通过深入研究和分析该项目的源码，我们可以获得宝贵的学习经验，并在实战中提升我们的编程和数据处理能力。 ...
Python网络爬虫实习报告.pdf
2022-05-29 03:40

在本实习报告中，我们将深入探讨Python网络爬虫的相关知识，并通过实例演示如何使用Python爬虫框架来爬取豆瓣网上的电影数据。首先，我们要理解爬虫的基本原理。网络爬虫通常分为三个步骤：请求网页、解析网页和...
python爬虫爬取PDF文件程序代码
2024-12-01 20:34

Esoft9999的博客 open(“VB高级编程.pdf”,‘wb’).write(res.content)
Python网络爬虫技术-教学大纲.pdf
2022-05-29 03:43

- 掌握Python爬虫环境的搭建，学习常见的Python爬虫库。 - 学习爬虫伦理和法规，了解如何遵守网络爬虫的行为规范。 2. **网页前端基础**（3学时） - 网络编程基础，理解Socket库，包括TCP和UDP通信。 - 学习...
Python爬虫批量下载PDF[源码]
2025-12-04 06:08

本文正是针对这一需求，详细介绍了使用Python编程语言，通过爬虫技术实现批量下载PDF文件的完整过程。文章首先说明了作者面临的具体任务——从一个包含超过500个PDF文件下载链接的Excel文件中，自动化地完成下载...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月27日

python爬虫下载PDF失败

3条回答 默认 最新

问题事件

3条回答默认最新