巴啦啦拉粑粑 2020-03-10 01:41 采纳率: 66.7%
浏览 259

在html中 利用正则表达式提取数据问题

如何在下面的html代码中提取“已发货:(SJ顺丰 051131145456)”中的单号“051131145456”,单号位数会变,注意:单号前面有一个空格。正则表达式应该怎么样写

<!DOCTYPE html>

<html xmlns="http://www.w3.org/1999/xhtml">
<head id="Head1"><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><title>
    物流信息
</title><link href="../Resources/Css/Box/logisticsinfo.css" rel="stylesheet" /></head>
<body style="display: block;">
    <div>
        <table style="border: 1px solid #ECECEC; height: 125px; padding-left: 5px; padding-right: 5px; background-color: #EEF7FF; width: 100%">
            <tr>
                <td style="font-size: 20px; font-weight: bold; width: 252px; padding-top: 20px;"></td>
                <td></td>
                <td rowspan="2">
                    <img style="margin-top: 8px;" src="../Resources/Images/Box/qrcode_for_gh.png" /></td>
            </tr>
            <tr>
                <td style="font-size: 14px; vertical-align: top;">您可以随时接收物流动态、为包裹付款、获取最新的活动信息。</td>
                <td style="font-size: 14px; width: 260px; vertical-align: top;"><span style="font-size: 14px; float: right;">以最方便的方式玩转海淘></span><br />
                    <span style="font-size: 14px; float: right;">扫一扫,关注微信公众号「」</span></td>
            </tr>
        </table>
    </div>

    <br />
    <div class="main">
        <input type="hidden" id="boxcount" value="1" />

        <input id="tab1" type="radio" name="tabs" style="display: none;" checked="checked"
             />
        <label for="tab1"><a style="cursor: pointer;">XJ202002232539531</a></label>

        <section id="content1">
            <p class="tc mt20"></p>
            <div class="result-top"><span class="col1">时间</span><span class="col2">地点和跟踪进度</span></div>
            <table class="result-info2" cellspacing="0">
                <tbody>

                    <tr class="last">
                        <td class="row1">2020/3/8 10:12:11</td>
                        <td class="status status-first">&nbsp;</td>
                        <td>已发货:(SJ顺丰 051131145456)&nbsp;  <a target = "_blank" href="http://www.kuaidi100.com/chaxun?com=shunfeng&nu=051131145456" style="text-decoration:none;" onclick="AddQuery()">国内物流查询>></a></td>
                    </tr>

                    <tr>
                        <td class="row1">2020/3/8 10:11:11</td>
                        <td class="status">&nbsp;</td>
                        <td>已清关&nbsp; </td>
                    </tr>

                        <td class="row1">2020/3/5 13:58:00</td>
                        <td class="status">&nbsp;</td>
                        <td>已到达清关口岸&nbsp; </td>

  • 写回答

1条回答 默认 最新

  • 7*24 工作者 2020-03-10 09:13
    关注

    虽然匹配的数据稍微有点小问题,但是处理下就可以了

    import re
    data = open('test.html','r',encoding='utf-8').read()
    regx = re.compile('<td>(已[\w\W]+?)<a target = "_blank" href=".*?shunfeng&nu=(\d+)"')
    res = re.findall(regx,data)
    print(res)
    
    

    图片说明

    评论

报告相同问题?

悬赏问题

  • ¥15 DIFY API Endpoint 问题。
  • ¥20 sub地址DHCP问题
  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式
  • ¥30 数值计算均差系数编程
  • ¥15 redis-full-check比较 两个集群的数据出错
  • ¥15 Matlab编程问题
  • ¥15 训练的多模态特征融合模型准确度很低怎么办
  • ¥15 kylin启动报错log4j类冲突