中国专利数据的PDF应该去哪里批量下载！

1.我想下载2000年以后中国专利的PDF，尝试过incopat（用ui path进行重复点击下载，但速度太慢需要将近八年，太快需要验证，暂时没办法解决），国家知识产权总局的一个专利检索系统目前没办法依靠ui path（每下载一个都需要验证码）。两者虽然我都可以批量下载，但是太少了，还是需要很长的时间，请问各位牛人知不知道哪里可以直接下载很多很多的。
2.下面的xml是其他研究者批量下载专利的地方，但是我找不到，点不进去，请问各位牛人能不能帮我解析一下。

This XML file does not appear to have any style information associated with it. The document tree is shown below.
<business:PatentDocumentAndRelated xmlns:business="http://www.sipo.gov.cn/XMLSchema/business" xmlns:base="http://www.sipo.gov.cn/XMLSchema/base" xmlns:m="http://www.w3.org/1998/Math/MathML" xmlns:tbl="http://oasis-open.org/specs/soextblx" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" country="CN" dateProduced="20151231" datePublication="20160106" docNumber="105217357" file="CN102013000481828CN00001052173570APIDZH20160106CN00V.XML" kind="A" lang="zh" status="C" xsi:schemaLocation="http://www.sipo.gov.cn/XMLSchema/business /DTDS/PatentDocument/Elements/OtherElements.xsd" xsdVersion="V2.2.1">
<business:FullDocImage imgPath="\CN102013000481828CN00001052173570APIDZH20160106CN00V" type="pdf" numberOfFigures="11" country="CN" lang="zh">
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="1" fileType="PDF">
<business:TitlePages>
<base:PageRange>
<base:FirstPageNumber>1</base:FirstPageNumber>
<base:LastPageNumber>1</base:LastPageNumber>
</base:PageRange>
</business:TitlePages>
</business:ImageFile>
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="1" fileType="PDF">
<business:ClaimPages>
<base:PageRange>
<base:FirstPageNumber>2</base:FirstPageNumber>
<base:LastPageNumber>2</base:LastPageNumber>
</base:PageRange>
</business:ClaimPages>
</business:ImageFile>
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="5" fileType="PDF">
<business:DescriptionPages>
<base:PageRange>
<base:FirstPageNumber>3</base:FirstPageNumber>
<base:LastPageNumber>7</base:LastPageNumber>
</base:PageRange>
</business:DescriptionPages>
</business:ImageFile>
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="4" fileType="PDF">
<business:DrawingPages>
<base:PageRange>
<base:FirstPageNumber>8</base:FirstPageNumber>
<base:LastPageNumber>11</base:LastPageNumber>
</base:PageRange>
</business:DrawingPages>
</business:ImageFile>
</business:FullDocImage>
</business:PatentDocumentAndRelated>

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-06-02 13:10
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

解决方案

你想批量下载中国专利数据的PDF，但是遇到了速度太慢的问题。下面是一些可能的解决方案：

使用API：国家知识产权总局提供了API，可以使用Python或其他语言来调用API获取专利数据。例如，可以使用patent-api库来获取专利数据。
使用爬虫：使用爬虫工具，如Scrapy或Selenium，可以模拟浏览器行为，下载PDF文件。需要注意的是，需要遵守相关法律法规和网站的使用条款。
使用数据平台：有很多数据平台，如Data.gov.cn、PatentScope等，可以提供专利数据的下载服务。
使用专利检索系统的批量下载功能：国家知识产权总局的专利检索系统可能提供批量下载功能，可以尝试使用该功能。

以下是一个使用Python和patent-api库来获取专利数据的示例代码：

import requests import json # 设置API参数 api_key = "your_api_key" patent_number = "CN2000000000" # 发送GET请求 url = f"https://api.patent.gov.cn/v1/patent/{patent_number}" headers = {"Authorization": f"Bearer {api_key}"} response = requests.get(url, headers=headers) # 解析JSON数据 data = json.loads(response.content) # 下载PDF文件 pdf_url = data["pdf_url"] response = requests.get(pdf_url, stream=True) with open(f"{patent_number}.pdf", "wb") as f: for chunk in response.iter_content(1024): f.write(chunk)

请注意，这只是一个示例代码，需要根据实际情况进行修改和调整。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

科研效率提升：用Zotero+知网研学插件实现文献自动归类与批量下载
2025-10-24 03:44

river的博客本文系统介绍了如何利用Zotero结合知网研学插件...核心在于通过批量下载功能，实现从知网检索列表到个人文献库的自动化抓取与元数据获取，并借助ZotFile等插件完成PDF的智能命名与归类，从而大幅提升科研文献管理效率。
Crossing Automation获得四项关键半导体生产自动化专利.pdf
2021-08-29 21:52

这个专利设计包含了折叠型垂直移动轴和双滑动线性机器手臂装置，能够在高速下执行双晶圆交换，同时配备了晶圆对准和环境调节装置，确保了晶圆处理过程中的精度和稳定性。 2. **可变批量设备前端工序晶圆装载端口...
2025机器人行业白皮书：人形机器人、工业机器人、具身智能、核心零部件|附200+份报告PDF、数据、可视化模板汇总下载
2026-01-01 01:56

拓端研究室TRL的博客这一增长背后，是制造业从“规模化生产”向“柔性化定制”转型的刚需——传统工业机器人难以适配多品类、小批量生产，而系统集成服务通过定制化方案，实现机器人与现有产线深度融合，成为产业升级的关键支撑，其市场...
基于Python开发的跨平台开源工具集专注于简化日常办公与学习任务自动化集成多种实用功能模块包括但不限于文件批量处理数据格式转换网络请求模拟文本分析处理图像基础编辑.zip
2026-02-19 19:05

其次，数据格式转换模块为用户提供了从一种数据格式到另一种数据格式转换的能力，例如，将文本文件转换为电子表格，或将图片文件转换为PDF格式，提高了数据处理的灵活性和多样性。网络请求模拟功能是该工具集的另...
批量下载文件的设备和方法
2015-12-19 09:37

zgl_blog的博客本发明公开了一种驻留在移动终端中的批量下载文件的设备和方法。移动终端能够通过服务器与计算设备的浏览器相连。该批量下载文件的设备包括：连接管理装置，适于接收来自浏览器的文件列表请求消息；和文件列表生成...
Dify+RAGFlow企业级智能知识库：PDF表格秒变结构化数据，检索精准度大幅提升！
2025-04-25 17:11

智泊AI—大模型小王的博客深度文档理解：RAGFlow的布局解析算法突破传统NLP工具的限制，特别在处理扫描件、复杂表格时展现优势混合检索机制：结合Dify的灵活工作流编排，实现"关键词+语义+关联"的三维...消除API传输损耗，确保原始数据安全性。
医药(药品专利)、化学(化合物专利)、生物专利数据库查询工具！
2024-11-19 17:02

Yiyaoshujuku的博客还包含不限于初审、复审、无效宣告、诉讼信息、许可记录、转让详情、海关备案、质押情况、保全措施、部分无效宣告、行政裁决的公开信息、官方...审理记录、中国的专利补偿数据以及与PCT（专利合作条约）相关的信息等...
Java程序员转型大模型应用开发：掌握这12步就够了！
2025-05-24 11:20

大模型微调实战的博客 2. 高效学习资源实战项目：用LangChain4j搭建合同审查系统（PDF解析→关键条款提取）基于Spring AI开发智能排班系统（历史数据分析+规则约束）工具推荐：飞算JavaAI：自动生成工程代码，10倍提升CRUD开发效率 ...
莱迪思iCEstick评估套件加速FPGA设计.pdf
2021-07-13 13:50

iCE40mobile FPGA系列专为移动设备市场设计，以满足低功耗、快速上市时间以及低成本的设计要求。iCEstick套件支持硬件特性如红外功能和传感器接口，适用于智能手机、平板电脑、游戏机等多种应用场景。 3. **硬件...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月2日

中国专利数据的PDF应该去哪里批量下载！

5条回答 默认 最新

解决方案

问题事件

5条回答默认最新