关于xpath和正则表达式应用的问题

是这样的，我想用xpath或者正则表达式来把下面这段代码中td里面的内容都提取出来。但是tr中的id全都不是一样的，所以想请教一下各位朋友门，遇到这种情况应该怎么解决才好？

<tr style="height:44px;" tridx="3" id="r-3-0">
   <td class="fh tac bw f13-0 pl2 b1" id="A4-0-4612">
       第一行第一列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="B4-0-4612">
       第一行第二列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="C4-0-4612">
       第一行第三列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="D4-0-4612">
       第一行第四列
   </td>
</tr>
<tr style="height:44px;" tridx="4" id="r-4-0">
   <td class="fh tac bw f13-0 pl2 b1" id="A5-0-4612">
       第二行第一列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="B5-0-4612">
       第二行第二列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="C5-0-4612">
       第二行第三列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="D5-0-4612">
       第二行第四列
   </td>
</tr>
<tr style="height:44px;" tridx="5" id="r-5-0">
   <td class="fh tac bw f13-0 pl2 b1" id="A6-0-4612">
       第三行第一列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="B6-0-4612">
       第三行第二列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="C6-0-4612">
       第三行第三列
   </td>
   <td class="fh tac bw f13-0 pl2 b1" id="D6-0-4612">
       第三行第四列
   </td>
</tr>

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

ProfSnail 2021-02-14 20:45

关注

import re
html = '''
<tr style="height:44px;" tridx="3" id="r-3-0">
    <td class="fh tac bw f13-0 pl2 b1" id="A4-0-4612">
        第一行第一列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="B4-0-4612">
        第一行第二列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="C4-0-4612">
        第一行第三列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="D4-0-4612">
        第一行第四列
    </td>
</tr>
<tr style="height:44px;" tridx="4" id="r-4-0">
    <td class="fh tac bw f13-0 pl2 b1" id="A5-0-4612">
        第二行第一列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="B5-0-4612">
        第二行第二列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="C5-0-4612">
        第二行第三列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="D5-0-4612">
        第二行第四列
    </td>
</tr>
<tr style="height:44px;" tridx="5" id="r-5-0">
    <td class="fh tac bw f13-0 pl2 b1" id="A6-0-4612">
        第三行第一列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="B6-0-4612">
        第三行第二列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="C6-0-4612">
        第三行第三列
    </td>
    <td class="fh tac bw f13-0 pl2 b1" id="D6-0-4612">
        第三行第四列
    </td>
</tr>
'''
print(html)
#content = re.findall('<td [^>]*?>(.*?)></td>', html)
content = re.findall('<td [^>]*?>\n\s*([^\s]*)', html)
print(content)

正则表达式大概就是这么个意思，我给了俩是因为网页里面的html可能不是换行符，而是普通的空白，所以不用匹配\n之类的东西。想用好爬虫爬取东西，重要的就是找准想要爬取内容之间的共同点。这里面他的id虽然不一样，但是<td>标签下的class都是相同的。所以也可以用xpath这样表示：

from lxml.html import fromstring
tree = fromstring(html)
content = tree.xpath('//td[@class="fh tac bw f13-0 pl2 b1"]/text()')
print(content)

爬虫需要自己多找规律，多练练就搞明白了。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

关于xpath和正则表达式应用的问题 python
2021-02-14 20:00

回答 2 已采纳 import re html = ''' <tr style="height:44px;" tridx="3" id="r-3-0"> <td class="fh tac
正则，xpath，bs4匹配 python 正则表达式
2021-09-22 15:54

回答 1 已采纳一、本质原因是Unicode在HTML中和Python中的不同表示方法以unicode e412为例在HTML中 <p> &#xe412 </p> 在python中 '\
正则表达式匹配调试工具 python 问答团队
2022-07-19 23:44

回答 3 已采纳菜鸟工具网站就很不错https://c.runoob.com/front-end/854/
Python 解析本地html文件之XPath语法、XPath结合正则表达式使用、实例
2022-05-11 14:49

CDamogu的博客 etree.xpath BeautifulSoup pyquery pandas 常用于解析表格，网络url 和本地文件html皆可 ...Python 正则表达式 模块导入from lxml import etree 载入本地html文件或者字符串载入本地html文件,并完整打印
python xpath实例代码 python 有问必答
2021-09-09 22:28

回答 3 已采纳你要获取什么？代码没问题啊 from lxml import etree text = ''' <ul> <li class="sp item-0" name="two"&g
python使用xpath爬取网络数据报表结果为空 python 开发语言有问必答
2021-10-23 17:12

回答 3 已采纳该页面数据在XHR中找，构建一下headers和params，使用如下方式获json数据，然后从中解析即可： response = requests.get('https://fr.oppein.co
beautifulsoup同时爬不一样的标签 python 有问必答正则表达式
2021-07-25 17:51

回答 1 已采纳用css选择符就好。你题目的解答代码如下：（如有帮助，望采纳！谢谢! 点击我这个回答右上方的【采纳】按钮） from bs4 import BeautifulSoup html = """ <p
网页解析工具（XPath与正则表达式）
2022-04-07 23:25

海绵-_-b的博客 XPath lxml库功能 lxml是一个HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML数据基本使用利用来解析HTML代码，并在解析时，如果HTML代码不规范，将自动进行补全 from lxml import etree text = ''' <...
用python爬虫无法导出数据 json python 爬虫
2023-03-01 20:22

回答 3 已采纳回答不易，望采纳！这一行代码报错了应该是连页面内容都没有爬下来，后边更别谈格式化处理了。检查一下你的 cookie 是不是过期了吧
scrapy爬虫使用rules匹配url爬取，结果爬不了多少就自动停止了 python 正则表达式
2020-07-17 18:20

回答 1 已采纳你给的url：https://tech.ifeng.com 把这个url爬完自然就没了啊。。。我搜了下https关键字一共出现了200多次，去掉重复的话170个链接差不多了，如果你希望爬完一个网页爬下
如何判断elements每个列表里的参数是否一致？ css html5 python 正则表达式
2019-07-04 17:43

回答 1 已采纳 https://www.cnblogs.com/xiaoxiaolulu/p/7264106.html inputTest="$('#searchForm>input:eq(0)').va
【Python】【正则表达式】Python使用正则表达式匹配数字
2024-02-03 09:00

风云说通信的博客 Python使用正则表达式匹配数字，含实例讲解
网页爬虫，F12可以看到的内容，但爬出来的源码里没有 python
2020-10-12 16:35

回答 2 已采纳把浏览器源码，跟爬取的源码全部贴出来
数据解析-正则表达式与xpath
2022-11-24 21:57

繁漪的博客数据解析-正则表达式与xpath
python爬虫，爬取10000张高清美图，适合新手进阶，xpath和正则表达式匹配
2022-06-28 13:31

python爬虫，爬取10000张高清美图，适合新手进阶，xpath和正则表达式匹配，使用python的库访问，对多个页面，图片的多种类型进行爬取，可以根据自己电脑配置进行线程数量的设置，也可以自己定义爬取的数量，类型以及...
没有解决我的问题, 去提问

悬赏问题

¥15 微信小程序协议怎么写
¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？
¥20 怎么用dlib库的算法识别小麦病虫害
¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
¥15 java写代码遇到问题，求帮助
¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看

码龄粉丝数原力等级 --

关于xpath和正则表达式应用的问题

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

关于xpath和正则表达式应用的问题

2条回答 默认 最新

悬赏问题

2条回答默认最新