python中用正则去匹配多个div嵌套的时候,需要这样来写正则表达式
评测项目
                                        <div class="dt-div2">成绩</div>
                                        <div class="dt-div3">排名</div>
                                    </dt>
                                    <dd>
                                        <div class="dd-div1">加速(0-100公里/小时)</div>
                                        <div class="dd-div2">9.01秒</div>
                                        <div class="dd-div3"><a target='_blank' href='//www.autohome.com.cn/channel2/bestauto/list.aspx?type=1#591'>591</a></div>
                                    </dd>
                                    <dd>
                                        <div class="dd-div1">刹车(100-0公里/小时)</div>
                                        <div class="dd-div2">39.69米</div>
                                        <div class="dd-div3"><a target='_blank' href='//www.autohome.com.cn/channel2/bestauto/list.aspx?type=2#519'>519</a></div>
                                    </dd>
                                    <dd>
                                        <div class="dd-div1">实测油耗(升/100公里)</div>
                                        <div class="dd-div2">9.5升</div>
                                        <div class="dd-div3"><a target='_blank' href='//www.autohome.com.cn/channel2/bestauto/list.aspx?type=3#572'>572</a></div>
                                    </dd>
                                </dl>
                            </div>

要求:需要这样来写正则才能匹配到这整个div

0

3个回答

HTML格式最好用xpath方式来查找。Python用lxml库

0

问题不完整,无法回答

先找到要匹配DIV的规律,就好写正常了

0

不太理解你说的啥,这种匹配最好用bs4或者xpath,很简单的,非要用正则的话自己仔细找匹配内容的规律和前后固定的字符串

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python正则表达式之嵌套分组匹配
嵌套分组匹配 一般的分组匹配 target1 = '021-12345' pattern = r'^(\d{3})-(\d{3,8})$' m = re.match(pattern,target1) print(m.groups()) # 返回提取的子串 print(m.group(0)) # 永远是目标字符串本身 print(m.group(1)) # 提取的第一个子串 print(m.gr...
Python中用正则表达式匹配中文
我想在Python中用正则表达式匹配中文,用的是[\u4e00-\u9fa5]这段代码~~但是匹配结果有问题,这个表达式不仅能匹配中文,也能匹配英文字符~~rn在别的语言中试验是好使的,但在Python中不好使~~不知道问什么~~是编码的问题么?
HTML嵌套匹配正则
比如:rn rn Toprn WordPressrn rn Copyright © 2009 简单生活 —— Kevin Yang的博客rn rn rn Theme by mg12. Valid XHTML 1.1rn and CSS 3.rn rnrnrn能查找到id="footer"这个完整的div
【python】正则表达式匹配多个模式
利用re包的正则表达式可以便捷地得到文本中的目标 在匹配多个模式的时候,可以使用或表达式和多行匹配方法来实现。 #使用或表达式来实现 #patternA|patternB,模式A 或B两种匹配 import re text = 'This string1 is an example for match string2' text= text.replace(' ','') #去空格 re...
求匹配div正则表达式
rnrnaaa.comrnrnrn.......rn rnrnfff.comrnrnrnrn求能匹配包含fff.com的div 的正则表达式,"
python 正则表达式 关于星号-* 的匹配正则写法
re.search(ur"3tf47220xm0", ur"3tf47220xm0") 上面这个表达式可以匹配出结果,但是下面这种表达式却没有匹配到。 re.search(ur"3tf47220\\*m0", ur"3tf47220\\*m0") 本人有个需求,需要把字符串的x同意转化为星号*进行匹配。 经多种尝试,发现下面这种方式可以实现上述需求: re.search(ur"...
请教多个正则表达式匹配
我需要在文本文件中搜索一些符合规则的字符串rnrn每个规则都使用正则表达式描述,对每个文件要应用的规则个数在 100~1000 左右rnrn文件的大小就是 100k~1m bytes 的量级rnrn现在的问题是我在应用每个规则时都需要完整扫描一次整个文本文件rnrn这样下来应用所有规则的代价就非常高了,有没有更好的办法?rnrn比如能减少对文本扫描次数的,谢谢
python匹配shell变量的正则
rn用python分析日志rnshell执行的日志中包含rnrnmydate2=`date --date="$mydate $days days ago" +%Y%m%d`; today=$mydate2rnrn需要匹配出两类rn第一类: $符号后面的单词 mydate,days,mydate2rn第二类: 等号右边的词,mydate2和todayrnrn尝试了很久没搞定,哪位大侠帮帮忙
python核心编程-正则表达式之-匹配多个字符串
#!/usr/bin/env python # -*- coding: UTF-8 -*-import rebt = 'bat|bet|bit' m = re.match(bt,'bat') if m is not None: print m.group() print '1>>>>>>>>>>>>>>' m = re.match(bt,'blt') if m is not None:
Python 正则与url匹配
详细用法可参考:https://blog.csdn.net/weixin_40907382/article/details/79654372 Django 1.9 前 url匹配方法可以同时匹配正则和字符串,但是1.9之后被划分为了两个方法。 首先我们回顾一下python正则: 正则(re):是一种高级的字符串处理方式,主要用于字符串的匹配。 字符匹配被分为了两种: 内容匹配:通过描述内...
python匹配ip正则
#!/usr/bin/env python # -*- coding:utf-8 -*- import re ip_str = "asdad1.1.1.1sdfwe2.6.5.7sdfsf2.3.94.5sdf200.198.25.0" res = [] for i in range(1): ip_t = True m_ind = 0 while ip_t:
正则表达式 匹配这样的一个串??
rn格式:电话,......rnrn15910347983,13810987986,..........
function 正则表达式 js正则 匹配
function 创建方法的关键字 function 方法名(){ 这里是要执行的代码 } var visitor=”PRES” //greeting=(visitor==”PRES”)?”Dear President “:”Dear “; if(visitor==&quot;PRES&quot;){ greeting=&quot;Dear President &quot; }else{ greeti...
求一div嵌套的正则表达式
比如:rn rn rn第20周太钢出厂价大幅上涨900元/吨,调价后冷轧协议价为18100元/吨,结算价为17500元/吨,热轧协议价为16900元/吨,结算价为16300元/吨;400系涨200协议价为9600元/吨,其中毛边优惠减少90元。目前无锡市场304/2B 2.0冷卷价格在17500元/吨。由于周一[url=http://www.ytbxw.com]不锈钢市场价格[/url]已经小幅上涨,因此市场上对今日的出厂价格持观望态度。rnrn rn   5月11日LME综合镍跌70报收12960美元/吨,持仓83376,结算价12775,库存112308减少732吨。如无重大利好消息,LME综合镍的上涨行情也将会在结束。本轮上涨行情从3月30日左右开始,从技术路线上看,即将于本周结束。 rn rnrnrnrn我想获取 中的内容,正则表达式该如何写
正则表达式,去除嵌套div问题
源html代码如下:rn[code=html] rn rn rn rn rn rn rn rn rn rn rn rn 图片rn rn rn rn rn rnrn[/code]rn使用正则,把 包含的内容全部替换掉,怎么做?rnrn谢谢
正则替换多个匹配的问题
原始字符串内有一些自定义的域,现在想替换成实际的值,试了一下好象不行rnrnvar ss = "The_sc rain_st in_sx Spainsc fallssc\n mainly_st inst sxscthest plains.";rnvar sc = "(this is sc)", st = "[dd/xx]", sx= "|haha|";rnvar r, re; rnre = /(\sc\)(\st\)(\sx\)/g;//这么写对吗?rnr = ss.replace(re, sc); //?这句要怎么写rnalert(r);rnrnrn由于*中定义的标签比较多,不要那种进行循环replace的方法rn
div中匹配class正则表达式
我要在下面代码中匹配 ,哪位大侠能帮我解决一下,非常感谢rn rn rn rnrn rn rn rn rn rn rn rn rn rn rn 03:01rn rn rn rn rn rn rn rn rn rn rn rn rn 盘点世界杯球场雷人瞬间rn rn rn 盘点世界杯球场雷人瞬间rn rn rn rn 用户: rn rn rn 赛场传奇rn rn rn rn 播放: 661,568rn rn 发布: rn 18小时前rn rn rn rn rnrn rn rnrn rn rn rn rn rn rn rn rn rn rn 09:58rn rn rn rn rn rn rn rn rn rn rn rn 看点rn rn rn 世界杯:舌尖上的德国队 世界最辣酱戴防毒面具熬制 吃前签生死状rn rn rn 世界杯:舌尖上的德国队 世界最辣酱戴防毒面具熬制 吃前签生死状rn rn rn rn 用户: rn rn rn 优酷全视角rn rn rn rn 播放: 2,222,002rn rn 发布: rn 3天前rn rn rn rn rn rn
Python 正则表达式 匹配邮箱地址
import re pat = r'^(\w)+(\.\w+)*@(\w)+((\.\w+)+)$' email_address = 'ddy_davie@aaa.com' matched_address = re.match(pat, email_address) print(matched_address.group())pat = r’^(\w)+(.\w+)*@(\w)+((.\w+)+)
python正则表达式匹配中文
在爬去微博的wap版的时候,需要得到评论后面的手机的信息。 想要得到的是“来自”后面的信息,查询来自的unicode编码,然后放在正则表达式里面去匹配就可以了。是个列表,匹配的只有一串的话可以直接[0]拿出来。 效果如下了
python正则表达式匹配总结
一、通用格式import re    #导入模块re_name = re.compile(r'表达式')   #匹配类型表达式value_name = re_name.search('要查找的数据')   #匹配要查找的数据print_name = value_name.group()    #将查找到的数据打印print (print_name)    #python3打印找到的数据二、各参数2...
python正则表达式匹配邮箱
以前在js中遇到过验证邮箱格式的情况: http://blog.csdn.net/xxm524/article/details/46848495 下面来看看python验证邮箱模式的例子。 1. 一次匹配多个邮箱的情况 下面的例子中:邮箱中可以出现 数字、大小写字母、下划线、和横线(-) # -*- coding:utf-8 -*- # 邮箱格式-正则表达式匹配 import re
Python正则表达式匹配反斜杠“\”
在学习Python正则式的过程中,有一个问题一直困扰我,如何去匹配一个反斜杠(即“\”)?在学习了Python特殊字符和原始字符串之后,我觉得答案应该是这样的: 1)普通字符串:'\\';2)原始字符串:r'\';但事实上在提取诸如“3\8”反斜杠之前的数字时,我屡次碰壁,始终得不到结果。最终发现自己理解错了,原来原始字符串和“正则转义”没有一点关系;下面详细谈一谈。正则表达式字符串需要经过两次转义,这两次分别是上面的“字符串转义”和“正则转义”,个人认为“字符串转义”一定先于“正则转义”。
LeetCode10-正则表达式匹配-python
题目描述: 思路一:递归 递归的终止条件: (1)如果s字符串的长度为0,如果此时字符串p当且仅当有形如"a* b* c* d* e*"这样的格式时,返回true;否则,返回false。 (2)如果s字符串的长度不为0,而p字符串的长度为0,返回false。 递归的过程: (1)如果s的最后一个字符与p的最后一个字符相等,或者说p的最后一个字符为".",那么我们直接看字符串s中除去最后一...
python 正则表达式匹配网页内容
以下代码,从一个网页上匹配信息,为什么匹配不到联系人?其他的可以获取到rn[code=python]# -*- coding: cp936 -*-rnimport rernimport timernimport urllib2rnrnrndef getInfoFromPage(pattern,page):rn p = re.compile(pattern,re.M)rn result = p.findall(page)rn print resultrn return resultrnrnrndef getCompanyName():rn url = 'http://china.machine365.com/Product/SDetails/9535604.html'rn page = urllib2.urlopen(url)rn data = page.read()rn p1 = """(?<=).*(?=)"""rn companyName = getInfoFromPage(p1,data)rn rn p2 = """(?<=联系人: ).*(?=rnrn)"""rn person = getInfoFromPage(p2,data)rnrn rn p3 = """(?<= 电 话:).*(?=)"""rn phone = getInfoFromPage(p3,data)rnrn line = companyName[0] + ';' + person[0] + ';' + phone[0]rn fd = open('info.txt','a')rn fd.write(line)rn fd.close()rnrn rngetCompanyName()rnrn[/code]
python正则表达式匹配多行文本
有以下文本,想从中匹配到var coaseParam = 大括号里面的内容,rn用了正则表达式reg = "var coaseParam = [sS]*\$",匹配到的结果是空的[];rn请高手帮忙,正则表达式应该怎么写?rn=======================================rn rn
python正则表达式与文本匹配
python很强大 python的正则表达式很好用 这篇文章就写写怎么用python的正则表达式来匹配txt文本中的字符吧 首先,要知道自己匹配的字符串是什么形式的,然后根据自己的字符串形式来写出对应的正则表达式 例如这次,我需要匹配的是数字加逗号加数字的字符串形式 所以我的正则表达式的形式如下 rule_name = r'\b(\d*,+\d+)\s'compile_
python 正则表达式匹配中文
python 正则表达式匹配中文文件编码为 utf-8设置默认编码为 utf-8中文需要转换为 \u 形式的编码,也就是  编码,轮换方法,cmd 下执行 python 进入 python 命令提示符模式执行:&amp;gt;&amp;gt;&amp;gt; u'中文'.encode('unicode_escape')输出为:'\\u4e2d\\u6587'使用示例:import sys defaultencoding ...
【剑指offer】正则表达式匹配 python ★★★★★★
题目描述 请实现一个函数用来匹配包括'.'和'*'的正则表达式。模式中的字符'.'表示任意一个字符,而'*'表示它前面的字符可以出现任意次(包含0次)。 在本题中,匹配是指字符串的所有字符匹配整个模式。例如,字符串"aaa"与模式"a.a"和"ab*ac*a"匹配,但是与"aa.a"和"ab*a"均不匹配 思路 分析匹配所有可能的情况: 参考https://blog.csdn.net/ch...
【python】匹配中文的正则表达式
r’[\w\u4e00-\u9fcc]+’
python 抓取网页正则表达式匹配
最近刚学研究python 抓取网页。网页已经成功抓取,但是想获取想要的信息。rn以下是抓取的网页:rn[code=html]rnAcloneA_2dd40=\"allowBlank\":false,\"dataName\":\"我想要的方案\",\"id\":\"jqTextArea55100_Aclon。。。rn[/code]rn这个是js返回的一个结果,可以看出来是一段json串。但是这个json串前面的Aclone_2dd40好像是随机的,用etree.xpath获取span只能获取一部分包含这个信息的代码。。想到了用re正则表达式。但是好像代码有点问题。rn[code=python]rnre.findall(r'"dataName":.*?"id":',html,re.DOTALL)rn[/code]rnrn能帮我看看是哪里的问题么。rn(PS:个人认为不是\的问题,试过貌似也没用)rn
Python leetcode10. 正则表达式匹配
给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配。 '.' 匹配任意单个字符 '*' 匹配零个或多个前面的那一个元素 所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。 说明: s 可能为空,且只包含从 a-z 的小写字母。 p 可能为空,且只包含从 a-z 的小写字母,以及字符 . 和 *。 示例 1: 输入: s = "aa" p =...
python正则表达式中文匹配
一般中文部分的unicode 值是4e00 - 9f5a, 但是要注意, 这是基本汉字编码范围, 还有一些扩展集, 后面介绍 下面例子标识我们要查找一段字符串中的汉字:import re s = "中华人民共和国, 简称中国, 英文China" words = re.findall (r"[\u4e00-\u9f5a]+", s) for word in words: pri
剑指offer:正则表达式匹配(Python)
题目描述 请实现一个函数用来匹配包括.和*的正则表达式。模式中的字符.表示任意一个字符,而*表示它前面的字符可以出现任意次(包含0次)。 在本题中,匹配是指字符串的所有字符匹配整个模式。例如,字符串aaa与模式a.a和ab*ac*a匹配,但是与aa.a和ab*a均不匹配。 解题思路 思路来自牛客网 当模式中的第二个字符不是*时: 1. 如果字符串第一个字符和模式中的第一个字符相匹配,那么...
python正则表达式,分组匹配
1. c1.py import re # 正则表达式 # 正则表达式是一个特殊的字符序列,一个字符串是否与我们设定的这样的字符序列匹配; # 快速检索文本,实现一些替换文本的操作 a = 'Java|node|Javascript|C++|node' # print(a.index('node')) # print('node' in a) result = re.findall('n...
python 正则表达式-匹配规则
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完...
python正则表达式匹配字符串
使用步骤 import re 导入正则表达式模块 用 re.compile() 函数创建一个 Regex 对象.(记着使用原始字符串, 字符串前面带r) 将你要用于搜索的字符串传入 Regex 对象的 search() 方法中。这个方法将会返回一个 Match object. 调用 Match object 的 group() 方法,将返回实际匹配到的文本 eg:匹配美国的号码 #! /u...
python正则表达式 匹配反斜杠
正则 需要把原始字符串不被转义的条件下传递给正则模块,正则再去转义。 r表示r后面的字符串为原始字符串,防止计算机将 \ 理解为转义字符。 r'^\\$' 首先按照原始字符串给到compile函数 ,正则再把r'^\\$'中的\`翻译成\ backslash='\\' print(backslash) regular_backslash=re.compile(r'^\\$') print(r...
常用的正则表达式匹配(Python)
 手机号:  r'(13|14|15|18|17)[0-9]{9}' 邮箱:^\w+@\w+\.[^@]+$  网址url: r'^((https|http)?:\/\/)[^\s]+' 中文匹配: r'[\u4e00-\u9fa5]'  身份证号码: r'\d{17}[\d|x]|\d{15}' 邮政编码: r'\d{6}' IP地址匹配: r'^(?:[0-9]{1,3}\.){3}[0-9]...
python正则表达式匹配句子。
如何在python里用正则表达式匹配一段话里的一些关键搭配并将关键搭配所在句子抽取出来。rn如:rnHello everyone,my name is Bob.This is my friend Alice.We both like movies. rn怎么在这样一段话里匹配关键搭配“We like”并且将We both like movies.这句话提取出来(存在一个列表或者元组里都行)。 rn
Python正则表达式匹配中文
参照Python正则表达式指南 在使用Python的过程中,由于需求原因,我们经常需要在文本或者网页元素中用Python正则表达式匹配中文,但是我们经常所熟知的正则表达式却只能匹配英文,而对于中文编码却望尘莫及,于是我大量Google,几经Baidu,花了两个多个小时测试,终于发现解决的办法。特记录如下 从字符串的角度来说,中文不如英文整齐、规范,这是不可避免的现实。本文结合网上资料以及个