sofudage 2023-03-27 13:35 采纳率: 33.3%
浏览 29
已结题

python爬虫下载PDF失败

开发了自己的小工具,依据sci-hub平台批量下载文献,大部分文章都能顺利下载。有个别文章下载异常。程序分两步:1、用DOI号进行一次request请求,得到下载链接dl_url;2、根据下载链接dl_url发送request请求,得到pdf文章的内容content,随后二进制写入文档。
程序下载的结果如图:

img

为一个空白文件,后缀改为.pdf打开,也是异常。


```python
DOI = '10.1617/s11527-007-9226-0'
mingzi = 'Textile reinforced mortar (TRM) versus FRP as strengthening material of URM walls: out-of-plane cyclic loading'
mulu = r"C:\Users\C\Desktop"

headers = {
        'user-agent': '浏览器user-agent',
        'cookie':'浏览器cookie'
    }
url = 'https://sci-hub.st/'
zong_url = url + DOI
r = requests.get(zong_url, headers=headers)
html = BeautifulSoup(r.text, 'html.parser')
weizhui = html.find('button')['onclick'][14:].replace('\'', '')
if 'sci-hub.st' in weizhui:
    dl_url = 'https:' + weizhui
else:
    dl_url = 'https://sci-hub.st' + weizhui
#这一步得到的dl_url在浏览器中输入可以正常下载,但是代码中下载异常
#这一步得到的dl_url为:https://moscow.sci-hub.st/1136/953c6f7d5defb1c69b86a69b2f0499d9/papanicolaou2007.pdf?download=true

#存入文档
myfile = requests.get(dl_url, headers=headers)
dizhi = mulu + r"\{}.pdf".format(mingzi)
with open(dizhi, 'wb') as f:
    f.write(myfile.content)

  • 写回答

3条回答 默认 最新

  • sofudage 2023-03-27 14:35
    关注

    感谢两位。我刚刚分析了一下所有下载异常的文件,名字中都有冒号:,replace替换后现在可以下载了。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 4月4日
  • 已采纳回答 3月27日
  • 修改了问题 3月27日
  • 创建了问题 3月27日

悬赏问题

  • ¥15 使用ESP8266连接阿里云出现问题
  • ¥15 BP神经网络控制倒立摆
  • ¥20 要这个数学建模编程的代码 并且能完整允许出来结果 完整的过程和数据的结果
  • ¥15 html5+css和javascript有人可以帮吗?图片要怎么插入代码里面啊
  • ¥30 Unity接入微信SDK 无法开启摄像头
  • ¥20 有偿 写代码 要用特定的软件anaconda 里的jvpyter 用python3写
  • ¥20 cad图纸,chx-3六轴码垛机器人
  • ¥15 移动摄像头专网需要解vlan
  • ¥20 access多表提取相同字段数据并合并
  • ¥20 基于MSP430f5529的MPU6050驱动,求出欧拉角