taki0 2022-01-06 10:18 采纳率: 97.4%
浏览 40
已结题

python爬虫,遇到这种类型的网站,怎么获取数据?

拿来的html页面数据一样
用正则吗?,但是我用正则一直匹配不到数据,不知道是怎么回事

img

img

  • 写回答

2条回答 默认 最新

  • 菜猫小六 2022-01-06 11:25
    关注

    用etree解析把,需要 安装 lxml

    # -*- coding: utf-8 -*-
    import json
    
    sss = """ 
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html>
        <head>
            <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
       <script src="http://creditxj.gov.cn:80/hplus/js/bootstrap.min.js?v=3.3.6"></script>
           <link href="http://creditxj.gov.cn:80/files/css/bootstrap.min.css" rel="stylesheet" type="text/css">
        </head>
        <body style="width:98%;padding-left:2%; margin-top:1px">
            <div class="tab-pane fade in active" id="home">
                            <table class="table table-bordered">
                                <tr><a href="http://creditxj.gov.cn:80/xyxf/toyyxfapply.do?key=DllfXEej0K0tCkjqi47+EBdPua70HEFq1Lwh+JGQ+GdeqGspi596tu1UmTiufQglJuBKZsp0Gaxu6petHGmaUc3KVaJT8XAxXJrzJkCJH2AzxP5R8XY6ytrQyoT38dQ96FSXeL+1kRbZP0RHpFDm/8q1dNB1xdjLK8tuNwq2meGkzVDpyYjGB9f2p/huouRyCsE6gKjOCGust1fY6d9Vvg==" target="_Blank"  style="width:60px;margin-left:680px;font-size:15px;">异议/修复</a></tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            行政相对人名称
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    新疆中天恒业建材有限责任公司
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            行政相对人类别
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    法人及非法人组织
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            统一社会信用代码
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    91654223580241598R
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            工商注册号
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            组织机构代码
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            税务登记号
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            事业单位证书号
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            社会组织登记证号
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            法定代表人
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    赵永军
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            法定代表人证件类型
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    身份证
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            法定代表人证件号码
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    132132**********
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            证件类型
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            证件号码
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                        
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            行政处罚决定书文号
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    塔税稽稽罚〔2022〕1号
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            违法行为类型
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    新疆中天恒业建材有限责任公司-其他违法
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            违法事实
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    (一)增值税
    1.2019年
    你单位2019年销售多孔砖12,042,500.00 块,实际取得销售收入4,729,794.17元,已申报销售收入1,269,405.03 元,少申报销售收入3,460,389.14 元。
    2.2020年
    你单位2020年销售多孔砖30,232,220.00 块,实际取得销售收入14,024,365.34元,已申报销售收入8,215,839.50元,少申报销售收入5,808,525.84元。
    3.2021年1~6月
    你单位2021年1~6月期间销售多孔砖11,046,230.00 块,实际取得销售收入6,434,084.47 元,已申报销售收入4,037,988.52 元,少申报销售收入2,396,095.95元。
    根据《中华人民共和国增值税暂行条例》(2017年中华人民共和国国务院令第691号)第一条“在中华人民共和国境内销售货物或者加工、修理修配劳务(以下简称劳务),销售服务、无形资产、不动产以及进口货物的单位和个人,为增值税的纳税人,应当依照本条例缴纳增值税”、第五条“纳税人发生应税销售行为,按照销售额和本条例第二条规定的税率计算收取的增值税额,为销项税额。销项税额计算公式:销项税额=销售额×税率”、第十九条“增值税纳税义务发生时间:(一)发生应税销售行为,为收讫销售款项或者取得索取销售款项凭据的当天;先开具发票的,为开具发票的当天”、《财政部 国家税务总局关于部分货物适用增值税低税率和简易办法征收增值税政策的通知》(财税〔2009〕9号)“二、下列按简易办法征收增值税的优惠政策继续执行,不得抵扣进项税额:(三)一般纳税人销售自产的下列货物,可选择按照简易办法依照6%征收率计算缴纳增值税:3.以自己采掘的砂、土、石料或其他矿物连续生产的砖、瓦、石灰(不含粘土实心砖、瓦)。一般纳税人选择简易办法计算缴纳增值税后,36个月内不得变更”、《财政部 国家税务总局关于简并增值税征收率政策的通知》(财税〔2014〕57号 )“二、财税〔2009〕9号文件第二条第(三)项和第三条‘依照6%征收率’调整为“依照3%征收率。四、本通知自2014年7月1日起执行”之规定,你单位2019年应申报缴纳增值税141,893.83元,已缴38,082.15 元,少缴111,651.41元;2020年已缴增值税246,475.15元,少缴190
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            处罚依据
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    决定对你单位2019年1月1日~2021年6月30日期间少缴税款1,633,327.35元(增值税349,950.47元、城市维护建设税3,499.50元、企业所得税1,279,877.38元)的行为处以百分之五十的罚款,即816,663.68元。
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            处罚类别
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    罚款
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            处罚内容
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    在账簿上不列或少列收入
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            罚款金额(万元)
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    81.666376
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            没收违法所得没收非法财物的金额(万元)
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            暂扣或吊销证照名称及编号
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            处罚决定日期
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                        2022-01-04
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            处罚有效期
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                        2022-01-04
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            公示截止期
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                        2023-01-04
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            处罚机关
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    国家税务总局新疆维吾尔自治区税务局
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            处罚机关统一社会信用代码
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    11100000010183429F
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            数据来源单位
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    国家税务总局新疆维吾尔自治区税务局
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            数据来源单位统一社会信用代码
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    11100000010183429F
     
                                        </td>
                                    </tr>
                                    <tr >
                                        <td  style="width:30%;color: #032e76; text-align: right">
                                            备注
                                            &nbsp;
                                        </td>
                                        <td  style="width:70%;text-align: left;">
                                            &nbsp;
                                                    
     
                                        </td>
                                    </tr>
                            </table>
            </div>
        </body>
    </html>
     """
    from lxml import etree
    _ = etree.HTML(sss)
    
    Company_name = _.xpath("//table/tr//td[2]/text()")[0].replace('\r','').replace('\n','').strip()
    credit_code = _.xpath("//table/tr//td[2]/text()")[4].replace('\r','').replace('\n','').strip()
    print("公司名",Company_name)
    print("社会统一信用码",credit_code)
    

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月14日
  • 已采纳回答 1月6日
  • 创建了问题 1月6日

悬赏问题

  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度
  • ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
  • ¥15 ETLCloud 处理json多层级问题
  • ¥15 matlab中使用gurobi时报错
  • ¥15 这个主板怎么能扩出一两个sata口
  • ¥15 不是,这到底错哪儿了😭
  • ¥15 2020长安杯与连接网探
  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么