Mewtwo_ 2021-02-14 20:00 采纳率: 100%
浏览 69
已采纳

关于xpath和正则表达式应用的问题

是这样的,我想用xpath或者正则表达式来把下面这段代码中td里面的内容都提取出来。但是tr中的id全都不是一样的,所以想请教一下各位朋友门,遇到这种情况应该怎么解决才好?

<tr style="height:44px;" tridx="3" id="r-3-0">
    <td class="fh tac bw f13-0 pl2 b1" id="A4-0-4612">
        第一行第一列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="B4-0-4612">
        第一行第二列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="C4-0-4612">
        第一行第三列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="D4-0-4612">
        第一行第四列
    </td>
</tr>
<tr style="height:44px;" tridx="4" id="r-4-0">
    <td class="fh tac bw f13-0 pl2 b1" id="A5-0-4612">
        第二行第一列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="B5-0-4612">
        第二行第二列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="C5-0-4612">
        第二行第三列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="D5-0-4612">
        第二行第四列
    </td>
</tr>
<tr style="height:44px;" tridx="5" id="r-5-0">
    <td class="fh tac bw f13-0 pl2 b1" id="A6-0-4612">
        第三行第一列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="B6-0-4612">
        第三行第二列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="C6-0-4612">
        第三行第三列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="D6-0-4612">
        第三行第四列
    </td>
</tr>

 

  • 写回答

2条回答 默认 最新

  • ProfSnail 2021-02-14 20:45
    关注
    import re
    html = '''
    <tr style="height:44px;" tridx="3" id="r-3-0">
        <td class="fh tac bw f13-0 pl2 b1" id="A4-0-4612">
            第一行第一列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="B4-0-4612">
            第一行第二列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="C4-0-4612">
            第一行第三列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="D4-0-4612">
            第一行第四列
        </td>
    </tr>
    <tr style="height:44px;" tridx="4" id="r-4-0">
        <td class="fh tac bw f13-0 pl2 b1" id="A5-0-4612">
            第二行第一列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="B5-0-4612">
            第二行第二列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="C5-0-4612">
            第二行第三列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="D5-0-4612">
            第二行第四列
        </td>
    </tr>
    <tr style="height:44px;" tridx="5" id="r-5-0">
        <td class="fh tac bw f13-0 pl2 b1" id="A6-0-4612">
            第三行第一列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="B6-0-4612">
            第三行第二列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="C6-0-4612">
            第三行第三列
        </td>
        <td class="fh tac bw f13-0 pl2 b1" id="D6-0-4612">
            第三行第四列
        </td>
    </tr>
    '''
    print(html)
    #content = re.findall('<td [^>]*?>(.*?)></td>', html)
    content = re.findall('<td [^>]*?>\n\s*([^\s]*)', html)
    print(content)

    正则表达式大概就是这么个意思,我给了俩是因为网页里面的html可能不是换行符,而是普通的空白,所以不用匹配\n之类的东西。想用好爬虫爬取东西,重要的就是找准想要爬取内容之间的共同点。这里面他的id虽然不一样,但是<td>标签下的class都是相同的。所以也可以用xpath这样表示:

    from lxml.html import fromstring
    tree = fromstring(html)
    content = tree.xpath('//td[@class="fh tac bw f13-0 pl2 b1"]/text()')
    print(content)

    爬虫需要自己多找规律,多练练就搞明白了。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 微信小程序协议怎么写
  • ¥15 c语言怎么用printf(“\b \b”)与getch()实现黑框里写入与删除?
  • ¥20 怎么用dlib库的算法识别小麦病虫害
  • ¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
  • ¥15 java写代码遇到问题,求帮助
  • ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看