如何批量保存网页链接中的pdf文件

想要保存网页上的pdf文件，但是数量很多，需要点开去保存有点慢，有没有其他方法可以批量保存

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

16条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
社区专家-Monster-XH 2023-02-19 15:49
关注
基于Monster 组和GPT的调写：
以下是几种可能的方法：

1.使用浏览器插件：许多浏览器都有可以批量下载文件的插件。例如，Chrome浏览器中有一个名为"Download Master"的扩展，可以下载整个页面中的所有PDF文件。使用这些扩展可以提高效率，并节省时间。

2.使用命令行工具：如果熟悉命令行工具，可以使用一些命令行工具来下载整个页面中的PDF文件。例如，使用Wget命令可以快速下载整个页面中的所有PDF文件。

wget -r -l1 -A.pdf http://example.com

这将下载当前页面中的所有 PDF 文件，包括在页面上嵌入的 PDF 文件，而不仅仅是页面中的链接
3.使用Python脚本：如果熟悉Python编程语言，可以编写一个简单的Python脚本来批量下载页面上的PDF文件。使用Python，可以轻松地从网页中提取所有PDF链接，并自动下载它们。
简单的Python脚本，

import requests import os url_prefix = 'https://www.example.com/pdfs/' pdf_filename = 'pdf\\' if not os.path.exists(pdf_filename): os.mkdir(pdf_filename) for page in range(1, 11): print(f'正在爬取第{page}页数据内容') url = f'https://www.example.com/page/{page}' # 页数对应的url headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'} response = requests.get(url=url, headers=headers) hrefs = re.findall('<a href="(.*?\.pdf)"', response.text) for index, href in enumerate(hrefs): pdf_url = url_prefix + href response_1 = requests.get(url=pdf_url, headers=headers) title = f'pdf_{page}_{index+1}.pdf' pdf_path = pdf_filename + title try: with open(pdf_path, mode='wb') as f: f.write(response_1.content) print(f'{title}保存成功...') except: pass

查找所有带有“.pdf”扩展名的链接，并使用requests模块下载这些链接指向的PDF文件，将其保存到本地文件中。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(15条)

报告相同问题？

关注问题

如何批量保存网页链接中的pdf文件其他有问必答
2023-02-19 15:40

回答 16 已采纳基于Monster 组和GPT的调写：以下是几种可能的方法： 1.使用浏览器插件：许多浏览器都有可以批量下载文件的插件。例如，Chrome浏览器中有一个名为"Download Master"的扩展，可
PHP - 从链接下载pdf文件并保存在本地文件夹中 php
2017-10-27 06:42

回答 3 已采纳 It is not clear what exactly you are doing and why your php script has to recognize pdf. If you a
如何从网页获取pdf地址 http https
2022-07-09 17:53

回答 2 已采纳打开页面后，ctrl + S 直接保存页面为PDF格式就可以啦。
将打开的网页批量保存为PDF（python）
2023-06-09 17:00

益鸟饭人的博客 5. 将html文件和pdf.py放到同一个目录下，并在当前目录新建文件夹命名为pdf，注意更换代码中的html文件名（bookmarks.html）2. 安装工具wkhtmltopdf，并将安装目录下的bin目录添加到环境变量。文件管理器-此电脑右键...
如何读取PDF文件中的印章？ java
2019-07-02 16:02

回答 4 已采纳有关 pdf 印章的操作，可以用 pageoffice 。
word和pdf文件如何恢复其他
2022-11-21 09:47

回答 5 已采纳有可能是这个文件携带病毒，先杀毒然后再试试
工作中遇到一个跨域下载pdf文件问题 javascript vue.js 前端
2022-11-15 11:41

回答 2 已采纳如果是固定前缀的URL你可以做一层nginx代理，又或者直接让后端去下返回文件流给你
批量保存网页为单个网页文件
2023-03-26 14:39

yun8686的博客批量保存网页为单个文件
vue项目如何在页面视口中浏览pdf文件 javascript vue.js
2021-10-14 16:00

回答 3 已采纳 :src=require(url)这样，注意路径一定要写对
Python如何实现批量将PDF文件转换为Word文件，下面代码如何修改才能实现任务 python 有问必答
2022-02-14 10:31

回答 4 已采纳 import os from pdf2docx import Converter filePath = input('请输入文件夹路径')#pdf存放路径 docx_file = input('清选择
使用mPDF生成并保存多个pdf文件 php
2016-12-12 19:50

回答 2 已采纳 Here is the answer after googling: unset the old HTML and mpdf object and create new one. functi
python批量保存网页内容到PDF
2022-10-08 15:13

智能优化_数据分析_AI算法的博客最近某人给我提了一个需求，需要批量保存某网站的网页到PDF中，对于熟悉python的大佬们，应该是一个很简单的任务了，今天想借助这个机会想通过这篇博客给小白们介绍一下如何利用python完成这个简单功能。 1....
在PHP中获取PDF文件的内容 php
2016-04-23 10:27

回答 1 已采纳 You can use PDF Parser (PHP PDF Library) to extract each and everything from PDF's. PDF Parser Li
从互联网上批量下载PDF文件
2024-02-18 12:53

Anlina Li的博客 python实现互联网上文件的批量下载，使用了python多线程快速下载
Python：批量url链接保存为PDF
2024-02-05 15:58

摸鲨鱼的脚的博客我的数据是先把url链接获取到存入excel中，后续对excel做的处理，各位也可以直接在程序中做处理，下面就是针对excel中的链接做批量处理。注意：pdfkit，wkhtmltopdf一般情况下是需要安装的，已安装的忽略，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 2月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月19日

悬赏问题

¥15 python的qt5界面
¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能
¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败
¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100

如何批量保存网页链接中的pdf文件

16条回答 默认 最新

问题事件

悬赏问题

16条回答默认最新