python利用requests下载PDF文件，部分PDF文件下载后打开失败？

情况说明

尝试利用_requests_库对已知URL的PDF文件进行下载，出现部分PDF文件打开失败的情况。

软件环境

python：3.8
requests：2.24

源代码：

import requests


url1 = 'https://buildmedia.readthedocs.org/media/pdf/python-guide/latest/python-guide.pdf'
# url2 = 'https://cyber.bban.top/MTAuMTAwNy9iZjAwMjY4MzU1/touati-schwartz1979.pdf'

# url1对应此PDF文件下载后可以打开
r = requests.get(url1, stream=True)
with open("G://Python project//first use of requests//DOI Download//test1.pdf", "wb") as Pypdf:
    for chunk in r.iter_content(chunk_size=1024):
        if chunk:
            Pypdf.write(chunk)
print('done!')

# url2对应此PDF文件可以下载，但打开失败
"""
r = requests.get(url2, stream=True)
with open("G://Python project//first use of requests//DOI Download//test2.pdf", "wb") as Pypdf:
    for chunk in r.iter_content(chunk_size=1024):
        if chunk:
            Pypdf.write(chunk)
print('done!')
"""

错误提示

url2文件下载后打开出现下图提示
图片说明

烦请指教，不胜感激

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
冰阔箩 2020-06-29 15:25
关注
debug下，看一下这两个读取的东西有什么不同

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#python#的问题：怎么实现通过requests模块来下载网址中的pdf文件 python 爬虫
2022-10-06 11:02

回答 4 已采纳需要cookie，可以替换为你自己的cookie import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.
python爬虫下载PDF失败 python 爬虫
2023-03-27 13:35

回答 3 已采纳感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python文件下载不全_python requests 下载大文件不完整
2021-02-04 03:30

馒头夹个把子肉的博客使用的是Python 2.7.10requests 2.8.1目前碰到一个情况, 使用 requests 下载大文件的时候会出现下载文件不完整的情况, 出现的概率非常大, 应该不会是网络原因导致的. 相关代码概括如下:requests.adapters.DEFAULT_...
python生成的exe文件闪退，显示no module named 'charset_normalizer.md__mypyc' python
2022-11-04 00:04

回答 1 已采纳把所有库和依赖都添加到PYHONPATH里，或者全局安装依赖库
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
python 运行这段代码进入循环后退出 python 有问必答
2022-03-12 10:37

回答 3 已采纳你的意思是函数执行后没有打印输出还是?TranslateFile函数需要读取.\dst_dir目录下的文件读取,读取的PDF类文件,你的目录下放置文件了吗,还是路径不对
python下载网页中的pdf文件_Python3爬虫下载pdf（一）
2020-11-23 12:44

weixin_39804335的博客 Python3爬虫下载pdf（一）最近在学习python的爬虫，并且玩的不亦说乎，因此写个博客，记录并分享一下。需下载以下模块bs4 模块requests 模块一、源码"""功能：下载指定url内的所有的pdf语法：将含有pdf的url放到脚本...
pdf保存提示FileNotFoundError: [Errno 2] No such file or directory: python
2022-08-22 16:41

回答 1 已采纳文件名不能包含一些特殊字符（/:*?"<>|），需要进行替换，比如替换成下划线（_）横杠（-）之类的。 # 文件名中不允许包含一些特殊字符，需进行替换 filename = re.sub(
我想把采集到的数据保存到pdf中该怎么做 python
2023-03-12 16:10

回答 2 已采纳安装PyPDF2库，可以在终端中使用以下命令： pip install pypdf2 在代码中添加以下内容，将每条数据保存为一个PDF文件： # 创建PDF文件对象 pdf = PyPDF2.P
爬虫代码写好了运行报错怎么解决(语言-python|开发工具-pycharm) pycharm python 爬虫
2021-12-19 01:23

回答 2 已采纳把404排除掉的逻辑，你忘记加了，望采纳 # coding=gbk import requests from bs4 import BeautifulSoup import os import ur
python下载文件损坏_使用Python的request.get（）之后损坏的PDF文件
2020-11-20 17:41

weixin_39599654的博客 I am trying to download a PDF file using requests.get(). It works for most test PDF files I found but for this case it does not and the file is corrupted. If I open the URL with a browser and save the...
公告的链接找不到是在data里面找吗？ python
2023-03-12 13:23

回答 1 已采纳这个需要你动态加载网页，它是js动态加载的，不在源代码里，可以用 webdriver
【python pdf 文件下载】给定pdf url下载pdf文件
2021-12-16 00:57

东华果汁哥的博客 python从url获取pdf文件并保存在本地，主要思路如下： 1、借助requests下载文件 2、将文件转换为字节流 3、将字节流保存在本地 # -*- coding: utf-8 -*- import io import requests def download_pdf(save_path,...
Python爬虫（6）-selenium用requests、wget、urllib3这3种方法搞定图片和PDF文件下载
2023-02-05 17:15

轻烟飘荡的博客 Python爬虫（6）-selenium用requests、wget、urllib3这3种方法搞定图片和PDF文件下载
没有解决我的问题, 去提问

悬赏问题

¥15 使用C#，asp.net读取Excel文件并保存到Oracle数据库
¥15 C# datagridview 单元格显示进度及值
¥15 thinkphp6配合social login单点登录问题
¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配

python利用requests下载PDF文件，部分PDF文件下载后打开失败？

情况说明

软件环境

源代码：

错误提示

3条回答 默认 最新

悬赏问题

3条回答默认最新