在html中 利用正则表达式提取数据问题

如何在下面的html代码中提取“已发货:(SJ顺丰 051131145456)”中的单号“051131145456”,单号位数会变,注意:单号前面有一个空格。正则表达式应该怎么样写

<!DOCTYPE html>

<html xmlns="http://www.w3.org/1999/xhtml">
<head id="Head1"><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><title>
    物流信息
</title><link href="../Resources/Css/Box/logisticsinfo.css" rel="stylesheet" /></head>
<body style="display: block;">
    <div>
        <table style="border: 1px solid #ECECEC; height: 125px; padding-left: 5px; padding-right: 5px; background-color: #EEF7FF; width: 100%">
            <tr>
                <td style="font-size: 20px; font-weight: bold; width: 252px; padding-top: 20px;"></td>
                <td></td>
                <td rowspan="2">
                    <img style="margin-top: 8px;" src="../Resources/Images/Box/qrcode_for_gh.png" /></td>
            </tr>
            <tr>
                <td style="font-size: 14px; vertical-align: top;">您可以随时接收物流动态、为包裹付款、获取最新的活动信息。</td>
                <td style="font-size: 14px; width: 260px; vertical-align: top;"><span style="font-size: 14px; float: right;">以最方便的方式玩转海淘></span><br />
                    <span style="font-size: 14px; float: right;">扫一扫,关注微信公众号「」</span></td>
            </tr>
        </table>
    </div>

    <br />
    <div class="main">
        <input type="hidden" id="boxcount" value="1" />

        <input id="tab1" type="radio" name="tabs" style="display: none;" checked="checked"
             />
        <label for="tab1"><a style="cursor: pointer;">XJ202002232539531</a></label>

        <section id="content1">
            <p class="tc mt20"></p>
            <div class="result-top"><span class="col1">时间</span><span class="col2">地点和跟踪进度</span></div>
            <table class="result-info2" cellspacing="0">
                <tbody>

                    <tr class="last">
                        <td class="row1">2020/3/8 10:12:11</td>
                        <td class="status status-first">&nbsp;</td>
                        <td>已发货:(SJ顺丰 051131145456)&nbsp;  <a target = "_blank" href="http://www.kuaidi100.com/chaxun?com=shunfeng&nu=051131145456" style="text-decoration:none;" onclick="AddQuery()">国内物流查询>></a></td>
                    </tr>

                    <tr>
                        <td class="row1">2020/3/8 10:11:11</td>
                        <td class="status">&nbsp;</td>
                        <td>已清关&nbsp; </td>
                    </tr>

                        <td class="row1">2020/3/5 13:58:00</td>
                        <td class="status">&nbsp;</td>
                        <td>已到达清关口岸&nbsp; </td>

1个回答

虽然匹配的数据稍微有点小问题,但是处理下就可以了

import re
data = open('test.html','r',encoding='utf-8').read()
regx = re.compile('<td>(已[\w\W]+?)<a target = "_blank" href=".*?shunfeng&nu=(\d+)"')
res = re.findall(regx,data)
print(res)

图片说明

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐