是猫猫子吖 2025-06-02 13:10 采纳率: 63.6%
浏览 9
已结题

中国专利数据的PDF应该去哪里批量下载!

1.我想下载2000年以后中国专利的PDF,尝试过incopat(用ui path进行重复点击下载,但速度太慢需要将近八年,太快需要验证,暂时没办法解决),国家知识产权总局的一个专利检索系统目前没办法依靠ui path(每下载一个都需要验证码)。两者虽然我都可以批量下载,但是太少了,还是需要很长的时间,请问各位牛人知不知道哪里可以直接下载很多很多的。
2.下面的xml是其他研究者批量下载专利的地方,但是我找不到,点不进去,请问各位牛人能不能帮我解析一下。

This XML file does not appear to have any style information associated with it. The document tree is shown below.
<business:PatentDocumentAndRelated xmlns:business="http://www.sipo.gov.cn/XMLSchema/business" xmlns:base="http://www.sipo.gov.cn/XMLSchema/base" xmlns:m="http://www.w3.org/1998/Math/MathML" xmlns:tbl="http://oasis-open.org/specs/soextblx" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" country="CN" dateProduced="20151231" datePublication="20160106" docNumber="105217357" file="CN102013000481828CN00001052173570APIDZH20160106CN00V.XML" kind="A" lang="zh" status="C" xsi:schemaLocation="http://www.sipo.gov.cn/XMLSchema/business /DTDS/PatentDocument/Elements/OtherElements.xsd" xsdVersion="V2.2.1">
<business:FullDocImage imgPath="\CN102013000481828CN00001052173570APIDZH20160106CN00V" type="pdf" numberOfFigures="11" country="CN" lang="zh">
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="1" fileType="PDF">
<business:TitlePages>
<base:PageRange>
<base:FirstPageNumber>1</base:FirstPageNumber>
<base:LastPageNumber>1</base:LastPageNumber>
</base:PageRange>
</business:TitlePages>
</business:ImageFile>
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="1" fileType="PDF">
<business:ClaimPages>
<base:PageRange>
<base:FirstPageNumber>2</base:FirstPageNumber>
<base:LastPageNumber>2</base:LastPageNumber>
</base:PageRange>
</business:ClaimPages>
</business:ImageFile>
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="5" fileType="PDF">
<business:DescriptionPages>
<base:PageRange>
<base:FirstPageNumber>3</base:FirstPageNumber>
<base:LastPageNumber>7</base:LastPageNumber>
</base:PageRange>
</business:DescriptionPages>
</business:ImageFile>
<business:ImageFile fileName="CN102013000481828CN00001052173570APDFZH20160106CN00U.PDF" num="4" fileType="PDF">
<business:DrawingPages>
<base:PageRange>
<base:FirstPageNumber>8</base:FirstPageNumber>
<base:LastPageNumber>11</base:LastPageNumber>
</base:PageRange>
</business:DrawingPages>
</business:ImageFile>
</business:FullDocImage>
</business:PatentDocumentAndRelated>

  • 写回答

5条回答 默认 最新

  • 阿里嘎多学长 2025-06-02 13:10
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    解决方案

    你想批量下载中国专利数据的PDF,但是遇到了速度太慢的问题。下面是一些可能的解决方案:

    1. 使用API:国家知识产权总局提供了API,可以使用Python或其他语言来调用API获取专利数据。例如,可以使用patent-api库来获取专利数据。
    2. 使用爬虫:使用爬虫工具,如Scrapy或Selenium,可以模拟浏览器行为,下载PDF文件。需要注意的是,需要遵守相关法律法规和网站的使用条款。
    3. 使用数据平台:有很多数据平台,如Data.gov.cn、PatentScope等,可以提供专利数据的下载服务。
    4. 使用专利检索系统的批量下载功能:国家知识产权总局的专利检索系统可能提供批量下载功能,可以尝试使用该功能。

    以下是一个使用Python和patent-api库来获取专利数据的示例代码:

    import requests
    import json
    
    # 设置API参数
    api_key = "your_api_key"
    patent_number = "CN2000000000"
    
    # 发送GET请求
    url = f"https://api.patent.gov.cn/v1/patent/{patent_number}"
    headers = {"Authorization": f"Bearer {api_key}"}
    response = requests.get(url, headers=headers)
    
    # 解析JSON数据
    data = json.loads(response.content)
    
    # 下载PDF文件
    pdf_url = data["pdf_url"]
    response = requests.get(pdf_url, stream=True)
    with open(f"{patent_number}.pdf", "wb") as f:
        for chunk in response.iter_content(1024):
            f.write(chunk)
    

    请注意,这只是一个示例代码,需要根据实际情况进行修改和调整。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 7月12日
  • 已采纳回答 7月4日
  • 创建了问题 6月2日