朦朦墨色染 2021-12-18 11:16 采纳率: 100%
浏览 130
已结题

如何使用python爬虫从企查查上获得专利文献内容?

问题遇到的现象和发生背景

写毕业论文需要专利文献,选定企查查这个网站。

问题相关代码,请勿粘贴截图
from bs4.builder import HTMLTreeBuilder
import requests
header = {"user-agent":"Mozilla/5.0.html (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.html.2171.71 Safari/537.36"} 
qcc = requests.get('https://www.qcc.com/zhuanliDetail/1ae4fd11b950dc39fde2ec3d7b75beff.html',headers=header)
print(qcc.status_code)
#200表明请求网页成功
#输出响应体
#print(qcc.text)
#print(type(qcc.text))
#print(qcc.content)
#print(type(qcc.content))
#.text 返回的是unicode型的数据,一般是在网页的header中定义的编码形式。
#content返回的是bytes,二进制型的数据。
#如果想要提取文本就用text
#如果想要提取图片、文件、视频,就用到content

#使用美味汤库这个解析库解析html代码
from bs4 import BeautifulSoup
#BeautifulSoup的解析对象是html字符串
soup = BeautifulSoup(qcc.content,'lxml')
#将待解析的字符串以标准的缩进格式输出
print(soup.prettify())

运行结果及报错内容
200
<!DOCTYPE html>
<html class="">
 <head>
  <title>
   【纺织机以及纺织方法专利查询】专利号|摘要-企查查
  </title>
  <meta content="" name="description"/>
  <meta content="纺织机以及纺织方法专利注册查询,免费纺织机以及纺织方法专利查询,最新纺织机以及纺织方法专利信息查询" name="keywords"/>
  <meta charset="utf-8"/>
  <meta content="width=device-width,initial-scale=1,minimal-ui" name="viewport"/>
  <link href="https://www.qcc.com/material/theme/chacha/cms/v2/images/favicon.png" rel="icon"/>
  <!--[if lt IE 9]>
       <link rel="stylesheet" href="https://www.qcc.com/material/theme/chacha/cms/v2/css/app_ie8.css" type="text/css" />
       <script src="https://www.qcc.com/material/theme/chacha/cms/v2/js/html5shiv.js"></script>
       <script src="https://www.qcc.com/material/theme/chacha/cms/v2/js/respond.js"></script>
       <![endif]-->
  <link href="//qcc-static.qichacha.com/qcc/pc-web/prod-4.0.63/web/css/font-awesome.css" rel="stylesheet" type="text/css"/>
  <link href="//at.alicdn.com/t/font_2545218_04dsnmjd1raq.css" rel="stylesheet" type="text/css"/>
  <link href="//qcc-static.qichacha.com/qcc/pc-web/prod-4.0.63/vendor.17ce13bf.css" rel="stylesheet"/>
  <link href="//qcc-static.qichacha.com/qcc/pc-web/prod-4.0.63/main.17ce13bf.css" rel="stylesheet"/>
  <link href="https://www.qcc.com/zhuanliDetail/1ae4fd11b950dc39fde2ec3d7b75beff.html" rel="canonical"/>
 </head>
 <body>
  <div id="app">
   <div data-server-rendered="true">
    <div class="app-nheader hasInput fixed">
     <div class="app-nheader-wrap">
      <div class="container">
       <nav class="navbar navbar-left">
        <div class="navbar-brand">
         <a href="https://www.qcc.com/">
          <img class="logo" src="//qcc-static.qichacha.com/qcc/pc-web/prod-4.0.63/logo-063645ff.png"/>
         </a>
         <a>
          <span class="logo-zx">
          </span>
         </a>
        </div>
       </nav>
       <div class="navi-form">
        <div class="app-search-input medium">
         <div class="form-group">
          <div class="input-group">
           <input autocomplete="off" class="form-control search-key" id="searchKey" maxlength="1000" name="key" placeholder="请输入企业名、人名、产品名,或地址电话/经营范围等" type="text" value=""/>   
           <span class="input-group-btn">
            <button class="btn btn-primary" type="button">
             查一下
            </button>
           </span>
          </div>
          <a class="clear-searchkey" style="display:none;">
          </a>
         </div>
         <section class="search-section" style="display:none;">
          <div class="nologin">
           <img src="//qcc-static.qichacha.com/qcc/pc-web/prod-4.0.63/nologin-6f715836.png"/>
           <a class="btn btn-primary m-t-xs">
            登录试试
           </a>
          </div>
         </section>
        </div>
       </div>
       <nav class="navbar navbar-right">
        <ul class="navbar-nav">
         <li class="nav-item">
          <a class="nav-link dropdown-toggle no-cart" href="https://www.qcc.com/web/pay/vip" rel="nofollow">
           <img class="gicon-vip" src="//qcc-static.qichacha.com/qcc/pc-web/prod-4.0.63/gicon_vip-e4325033.png"/>
           <span class="gcolor-vip">
            VIP会员
           </span>
          </a>
         </li>
         <li class="head-line">
          |
         </li>
         <li class="nav-item">
          <a class="nav-link" href="https://www.qcc.com/web/pay/qiye" rel="nofollow">
           企业套餐
          </a>
         </li>
         <li class="head-line">
          |
         </li>
         <li class="nav-item dropdown app-box">
          <a class="nav-link dropdown-toggle" data-toggle="dropdown">
           应用
           <i class="caret">
           </i>
          </a>
          <div class="dropdown-menu app-list" style="display:none;">
           <div class="clearfix">
           </div>
          </div>
         </li>
         <li class="nav-item dropdown header-qrcode">
          <a class="nav-link dropdown-toggle no-cart" data-toggle="dropdown" href="https://www.qcc.com/web/app" rel="nofollow">
           <span class="hicon-app" src="../images/icon_app.png">
           </span>
          </a>
          <div class="dropdown-menu">
           <div class="download-app-container">
            <img class="download-app-qr-code" src="//qcc-static.qichacha.com/qcc/pc-web/prod-4.0.63/download-app-new-0d74a257.png"/>
           </div>
          </div>
         </li>
         <li class="nav-item">
          <a class="navi-btn login-nav-btn" rel="nofollow">
           <span>
            登录 | 注册
           </span>
          </a>
         </li>
        </ul>
       </nav>
      </div>
     </div>
    </div>
    <div class="container m-t-md patent-detail" data-v-08c2d20b="">
     <section class="npanel npanel-default info-title" data-v-08c2d20b="">
      <div class="title" data-v-08c2d20b="">
       纺织机以及纺织方法
      </div>
      <div class="tags" data-v-08c2d20b="">
       <span class="ntag text-primary" data-v-08c2d20b="">
        发明授权
       </span>
       <span class="ntag text-success" data-v-08c2d20b="">
        授权
       </span>
      </div>
      <a class="download" data-v-08c2d20b="" href="https://patent-image.qichacha.com/pdf/1ae4fd11b950dc39fde2ec3d7b75beff.pdf" target="_blank">
       <i aria-label="icon: icon-icon_xiazai" class="icon anticon anticon-icon-icon_xiazai text-primary aicon aicon-xiazai" data-v-08c2d20b="">
        <svg aria-hidden="true" fill="currentColor" focusable="false" height="1em" width="1em">
         <use xlink:href="#icon-icon_xiazai">
         </use>
        </svg>
       </i>
       <span data-v-08c2d20b="">
        专利文献
       </span>
      </a>
     </section>
     <div class="row" data-v-08c2d20b="">
      <div class="col-md-9" data-v-08c2d20b="">
       <section class="npanel npanel-default patentdetailbox info-content" data-v-08c2d20b="">
        <ul class="tabs row" data-v-08c2d20b="">
         <li class="tabs-item col-md-2 tabs-item-active" data-v-08c2d20b="">
          基础信息
         </li>
         <li class="tabs-item col-md-2" data-v-08c2d20b="">
          法律状态
         </li>
         <li class="tabs-item col-md-2" data-v-08c2d20b="">
          权利要求
         </li>
         <li class="tabs-item col-md-2" data-v-08c2d20b="">
          说明书
         </li>
         <li class="tabs-item col-md-2" data-v-08c2d20b="">
          附图
         </li>
        </ul>
        <div class="detailContent" data-v-08c2d20b="">
         <div class="part" data-v-08c2d20b="">
          <div class="tcaption" data-v-08c2d20b="" data-v-621a97fe="">
           <h3 class="title" data-v-621a97fe="">
            基础信息
           </h3>
           <span class="tbadge" data-v-621a97fe="">
           </span>
           <span class="watermark" data-v-621a97fe="">
           </span>
           <div class="right" data-v-621a97fe="">
           </div>
          </div>
          <div class="sub-part" data-v-08c2d20b="">
           <div class="sub-title" data-v-08c2d20b="">
            基本信息
           </div>
           <table class="ntable" data-v-08c2d20b="">
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="" width="20%">
              申请号
             </td>
             <td data-v-08c2d20b="" width="30%">
              CN201610349600.8
             </td>
             <td class="tb" data-v-08c2d20b="" width="20%">
              申请日期
             </td>
             <td data-v-08c2d20b="" width="30%">
              2016-05-24
             </td>
            </tr>
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="">
              公开(公告)号
             </td>
             <td data-v-08c2d20b="">
              CN106245163B
             </td>
             <td class="tb" data-v-08c2d20b="">
              公开(公告)日
             </td>
             <td data-v-08c2d20b="">
              2021-01-05
             </td>
            </tr>
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="">
              优先权号
             </td>
             <td data-v-08c2d20b="">
              JP2015-118170
             </td>
             <td class="tb" data-v-08c2d20b="">
              优先权日
             </td>
             <td data-v-08c2d20b="">
              2015-06-11
             </td>
            </tr>
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="">
              IPC分类号
             </td>
             <td data-v-08c2d20b="">
              D01H13/00;D01H13/30;D01H4/02
             </td>
             <td class="tb" data-v-08c2d20b="">
              CPC分类号
             </td>
             <td data-v-08c2d20b="">
              -
             </td>
            </tr>
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="">
              专利类型
             </td>
             <td data-v-08c2d20b="">
              发明授权
             </td>
             <td class="tb" data-v-08c2d20b="">
              简单法律状态
             </td>
             <td data-v-08c2d20b="">
              <div class="tags" data-v-08c2d20b="">
               <span class="ntag text-success" data-v-08c2d20b="">
                有效
               </span>
              </div>
             </td>
            </tr>
           </table>
          </div>
          <div class="sub-part" data-v-08c2d20b="">
           <div class="sub-title" data-v-08c2d20b="">
            申请/代理机构
           </div>
           <table class="ntable" data-v-08c2d20b="">
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="" width="20%">
              申请(专利权)人
             </td>
             <td data-v-08c2d20b="" width="30%">
              <span data-v-08c2d20b="">
               <a href="https://www.qcc.com/firm/z020895bfc0c322a9cbf7e5c23ce3da8.html" target="_blank">
                村田机械株式会社
               </a>
              </span>
             </td>
             <td class="tb" data-v-08c2d20b="" width="20%">
              发明人
             </td>
             <td data-v-08c2d20b="" width="30%">
              冈正毅;北川哲
             </td>
            </tr>
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="">
              申请人地址
             </td>
             <td data-v-08c2d20b="">
              日本京都府
             </td>
             <td class="tb" data-v-08c2d20b="">
              申请人邮编
             </td>
             <td data-v-08c2d20b="">
              -
             </td>
            </tr>
            <tr data-v-08c2d20b="">
             <td class="tb" data-v-08c2d20b="">
              代理机构
             </td>
             <td data-v-08c2d20b="">
              <span data-v-08c2d20b="">
               <a href="https://www.qcc.com/firm/w114e43abc6d0e6272560b25c83f76d8.html" target="_blank">
                北京市金杜律师事务所
               </a>
              </span>
             </td>
             <td class="tb" data-v-08c2d20b="">
              代理人
             </td>
             <td data-v-08c2d20b="">
              陈伟
             </td>
            </tr>
           </table>
          </div>
          <div class="sub-part" data-v-08c2d20b="">
           <div class="sub-title" data-v-08c2d20b="">
            摘要
           </div>
           <div class="part-content" data-v-08c2d20b="">
            本发明涉及一种纺织机以及纺织方法,纺织机(1)具备:空气纺织装置(7),其通过利用空气对纤维束(F)加捻的纺织动作来生成纱线(Y);供给装置(60),其在空气纺织装置(7)中的与纤维束(F)的入口相比靠上游侧的 
位置、与空气纺织装置(7)中的纱线(Y)的出口之间,对纤维束(F)或纱线(Y)供给包含添加剂的含添加剂空气;以及控制装置(10),其控制供给装置(60)的动作。在应通过空气纺织装置(7)持续进行纺织动作的运转状况下纺织动作暂
时中断时,控制装置(10)在该中断过程中的至少一部分期间内,从供给装置(60)供给含添加剂空气。
           </div>
          </div>
         </div>
         <div class="part" data-v-08c2d20b="">
          <div class="tcaption" data-v-08c2d20b="" data-v-621a97fe="">
           <h3 class="title" data-v-621a97fe="">
            法律状态
           </h3>
           <span class="tbadge" data-v-621a97fe="">
           </span>
           <span class="watermark" data-v-621a97fe="">
           </span>
           <div class="right" data-v-621a97fe="">
           </div>
          </div>
          <div class="part-content clearfix" data-v-08c2d20b="">
           <div class="e_history" data-v-08c2d20b="" data-v-bd373d2a="">
            <div data-v-bd373d2a="">
             <div class="ea_item" data-v-bd373d2a="">
              <div class="ea_row1" data-v-bd373d2a="">
               <div data-v-bd373d2a="">
                <div class="ea_num ea_last" data-v-bd373d2a="">
                 3
                </div>
                <div class="ea_date" data-v-bd373d2a="">
                 2021-01-05
                </div>
               </div>
               <div data-v-bd373d2a="">
                <div class="ea_line" data-v-bd373d2a="">
                </div>
                <div class="ea_content" data-v-bd373d2a="">
                 授权
                </div>
               </div>
              </div>
             </div>
            </div>
            <div data-v-bd373d2a="">
             <div class="ea_item" data-v-bd373d2a="">
              <div class="ea_row1" data-v-bd373d2a="">
               <div data-v-bd373d2a="">
                <div class="ea_num" data-v-bd373d2a="">
                 2
                </div>
                <div class="ea_date" data-v-bd373d2a="">
                 2018-06-29
                </div>
               </div>
               <div data-v-bd373d2a="">
                <div class="ea_line" data-v-bd373d2a="">
                </div>
                <div class="ea_content" data-v-bd373d2a="">
                 实质审查的生效
                 <a-popover data-v-bd373d2a="" placement="right">
                  <div data-v-bd373d2a="" slot="content">
                   <div data-v-bd373d2a="">
                    实质审查的生效
                   </div>
                   <div data-v-bd373d2a="">
                    IPC(主分类):D01H   4/02
                   </div>
                   <div data-v-bd373d2a="">
                    专利申请号:2016103496008
                   </div>
                   <div data-v-bd373d2a="">
                    申请日:20160524
                   </div>
                  </div>
                  <i aria-label="icon: icon-icon_zhushi" class="app-glossary-info anticon anticon-icon-icon_zhushi aicon aicon-zhushi" data-v-bd373d2a="">
                   <svg aria-hidden="true" fill="currentColor" focusable="false" height="1em" width="1em">
                    <use xlink:href="#icon-icon_zhushi">
                    </use>
                   </svg>
                  </i>
                 </a-popover>
                </div>

我想要达到的结果

希望获得说明书部分

  • 写回答

2条回答 默认 最新

  • CSDN专家-showbo 2021-12-18 14:27
    关注

    题主要的代码如下,

    img

    
    from bs4 import BeautifulSoup
    import requests
    
    header = {"user-agent":"Mozilla/5.0.html (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.html.2171.71 Safari/537.36"} 
    qcc = requests.get('https://www.qcc.com/zhuanliDetail/1ae4fd11b950dc39fde2ec3d7b75beff.html',headers=header)
    
    soup = BeautifulSoup(qcc.content,'lxml')
    ea_instructions=soup.select('.ea_instructions')[1]#有2个ea_instructions样式容器,第一个为权利要求,第二个为说明书
    print(str(ea_instructions))
    

    img


    有帮助或启发麻烦点下【采纳该答案】,谢谢~~有其他问题可以继续交流~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 12月26日
  • 已采纳回答 12月18日
  • 创建了问题 12月18日

悬赏问题

  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
  • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
  • ¥30 关于<main>标签页面跳转的问题
  • ¥80 部署运行web自动化项目
  • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
  • ¥30 VMware 云桌面水印如何添加
  • ¥15 用ns3仿真出5G核心网网元
  • ¥15 matlab答疑 关于海上风电的爬坡事件检测
  • ¥88 python部署量化回测异常问题