python爬虫下载PDF失败

开发了自己的小工具，依据sci-hub平台批量下载文献，大部分文章都能顺利下载。有个别文章下载异常。程序分两步：1、用DOI号进行一次request请求，得到下载链接dl_url；2、根据下载链接dl_url发送request请求，得到pdf文章的内容content，随后二进制写入文档。
程序下载的结果如图：

为一个空白文件，后缀改为.pdf打开，也是异常。


```python
DOI = '10.1617/s11527-007-9226-0'
mingzi = 'Textile reinforced mortar (TRM) versus FRP as strengthening material of URM walls: out-of-plane cyclic loading'
mulu = r"C:\Users\C\Desktop"

headers = {
        'user-agent': '浏览器user-agent',
        'cookie':'浏览器cookie'
    }
url = 'https://sci-hub.st/'
zong_url = url + DOI
r = requests.get(zong_url, headers=headers)
html = BeautifulSoup(r.text, 'html.parser')
weizhui = html.find('button')['onclick'][14:].replace('\'', '')
if 'sci-hub.st' in weizhui:
    dl_url = 'https:' + weizhui
else:
    dl_url = 'https://sci-hub.st' + weizhui
#这一步得到的dl_url在浏览器中输入可以正常下载，但是代码中下载异常
#这一步得到的dl_url为：https://moscow.sci-hub.st/1136/953c6f7d5defb1c69b86a69b2f0499d9/papanicolaou2007.pdf?download=true

#存入文档
myfile = requests.get(dl_url, headers=headers)
dizhi = mulu + r"\{}.pdf".format(mingzi)
with open(dizhi, 'wb') as f:
    f.write(myfile.content)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
sofudage 2023-03-27 14:35
关注
感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python爬虫下载图片 python
2021-04-01 22:12

回答 2 已采纳
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python网络爬虫项目开发实战_并发下载_编程案例解析实例详解课程教程.pdf
2023-05-03 11:34

在之前，我们的爬虫都是串行下载网页的，只有前一次下载完成之后才会启动新下载。在爬取规模较小的示例网站时，串行下载尚可应对，一但面对大型网站时就会显得捉襟见肘了。在爬取拥有100万网页的大型网站时，假设...
python爬虫图片转pdf python
2022-09-01 00:03

回答 1 已采纳这篇文章：Python 图片转pdf 也许有你想要的答案，你可以看看
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
python 爬虫XHR获取失败 python 爬虫
2017-10-22 15:00

回答 2 已采纳你要用post去请求，我使用的是request库 import requests url = 'http://www.bjbus.com/home/ajax_news_list.php' hea
Python网络爬虫项目开发实战_下载缓存_编程案例解析实例详解课程教程.pdf
2023-05-03 11:34

要想抓取这些新增的字段，我们需要重新下载整个网站。对于我们这个小型的示例网站而言，这可能不算特别大的问题。但是，对于那些拥有数百万个网页的网站而言，重新爬取可能需要耗费几个星期的时间。因此，本章提出了...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫需要学习哪些语言 java mysql python 有问必答
2021-07-14 10:26

回答 3 已采纳参考：https://www.cnblogs.com/cherish-cxh/p/10025979.html熟悉多线程编程、网络编程、HTTP协议相关开发过完整爬虫项目（最好有全站爬虫经验，这个下面会
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
用Python 爬虫批量下载PDF文档
2020-09-25 14:39

Python_sn的博客很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习...
写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
历时一个月整理的 Python 爬虫学习手册全集PDF（免费开放下载）
2023-10-11 13:00

Sitin涛哥的博客前段时间收到很多小伙伴的诉求，想要系统的学习Python爬虫，这段时间一直在为大家整理，现在已经全部整理完成，需要的小伙伴不要错过！下面看看详细的内容吧！
python爬虫（入门&进阶）.pdf
2020-09-29 22:36

python网络爬虫【Python+人工智能+大数据分析】 python网络爬虫,用python写网络爬虫,达内智能网络编程,0基础学习,学习智能课,简单好学
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月27日

悬赏问题

¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法

python爬虫下载PDF失败

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新