python中用正则去匹配多个div嵌套的时候,需要这样来写正则表达式
评测项目
                                        <div class="dt-div2">成绩</div>
                                        <div class="dt-div3">排名</div>
                                    </dt>
                                    <dd>
                                        <div class="dd-div1">加速(0-100公里/小时)</div>
                                        <div class="dd-div2">9.01秒</div>
                                        <div class="dd-div3"><a target='_blank' href='//www.autohome.com.cn/channel2/bestauto/list.aspx?type=1#591'>591</a></div>
                                    </dd>
                                    <dd>
                                        <div class="dd-div1">刹车(100-0公里/小时)</div>
                                        <div class="dd-div2">39.69米</div>
                                        <div class="dd-div3"><a target='_blank' href='//www.autohome.com.cn/channel2/bestauto/list.aspx?type=2#519'>519</a></div>
                                    </dd>
                                    <dd>
                                        <div class="dd-div1">实测油耗(升/100公里)</div>
                                        <div class="dd-div2">9.5升</div>
                                        <div class="dd-div3"><a target='_blank' href='//www.autohome.com.cn/channel2/bestauto/list.aspx?type=3#572'>572</a></div>
                                    </dd>
                                </dl>
                            </div>

要求:需要这样来写正则才能匹配到这整个div

3个回答

HTML格式最好用xpath方式来查找。Python用lxml库

问题不完整,无法回答

先找到要匹配DIV的规律,就好写正常了

不太理解你说的啥,这种匹配最好用bs4或者xpath,很简单的,非要用正则的话自己仔细找匹配内容的规律和前后固定的字符串

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python3正则表达式匹配字符串时,能不能不匹配字符串中间的某个子字符串

我的正则reg = r'((?=src=).*?\.jpg)' 已经匹配出的字符串: https://img3.doubanio.com/f/shire/a1fdee122b95748d81cee426d717c05b5174fe96/pics/blank.gif" **data-origin**="https://img3.doubanio.com/icon/g28131-1.jpg 但我要的是 data-origin 后面的.jpg的url 请问正则应该怎么做

python 正则如何多次匹配?

例如abc1abc2abc3abc re.findall('abc\w*?abc','abc1abc2abc3abc',re.I) 结果为['abc1abc', 'abc3abc'] 怎么把abc2abc也提取出来?

python 正则匹配读取本地文件

下了一堆html,命名都是数字,想用正则匹配并挨个读取解析 于是,只能写到这里 ``` import re #重点在这里 #---------------------------------------------- files = re.findall(r'\d+\.html',这里咋写) #后面打算这样 for file in files: html = open(file,'r',encoding='utf-8') #---------------------------------------------- #现在只能这样 for i in range(0,49999): try: html = open(str(i)+'.html','r',encoding='utf-8') except: continue ``` 这里咋写哪里咋写 啊啊啊。。。

python正则匹配一个html中的几个url

在一个网页中匹配出如下的几个url,从url开始匹配不是从href开始匹配 href="http://redirect.wangpansou.cn/redirect.php?url=http%3A%2F%2Fpan.baidu.com%2Fshare%2Flink%3Fuk%3D2803502175%26shareid%3D3310887851%26third%3D0" href="http://redirect.wangpansou.cn/redirect.php?url=http%3A%2F%2Fpan.baidu.com%2Fshare%2Fhome%3Fuk%3D981206555%26view%3Dshare" href="http://redirect.wangpansou.cn/redirect.php?url=http%3A%2F%2Fpan.baidu.com%2Fshare%2Flink%3Fuk%3D1075874930%26shareid%3D3128951413%26third%3D0" python的正则表达式应该怎么写?求大神啊!就结了好久了.

python正则匹配结果太多

直接上代码 > str = 'MBLNR = WA_DATA-BELNR AND\r\n ZEILE = WA_DATA-BUZEI AND\r\n MJAHR = WA_DATA-BUDAT+0(4)' > reg = r'-(.+)[ ]|-(.+)$' > m = re.findall(reg,str) > print(m) 得到的结果是 [('BELNR', ''), ('BUZEI', ''), ('', 'BUDAT+0(4)')] 里面这么多空的字符串是什么意思?该怎么写

python3.4正则匹配HTML问题

![图片说明](https://img-ask.csdn.net/upload/201507/22/1437534263_193683.png) <span style="color: #ff0000;">2014年 井[4.4GB]:The.Last.Survivors.2014.720p.BluRay.x264-RUSTED</span> <span style="color: #ff0000;">不知道怎么下载请看这里===></span> 我写的正则是:<span.*?style="color.*?ff0000.*?">(.*?)</span> 第二个内容(不知道怎么下载请看这里===)可以匹配出,但是我不要它。 两个表达式的嵌套标签一样。 正则该怎么写?最好可以只匹配出 2014年 井[4.4GB] 冒号 后面的内容

python 正则表达式 匹配指定单词前几个单词

``` import re text = "May we stop to remember the 2,996 people that died & the more than 6000 injured on #September11" m = re.findall(r"\bdied|injured\b", text) if m: print(m) else: print('not match') ``` 我 想匹配的是died和injured包括他们前面3个单词,包括数字,主要是需要数字,这个该如何填写呢?

python的正则表达式匹配

<a href="http://bbs.ghtt.net/forum.php?mod=viewthread&amp;tid=1854161&amp;page=1&amp;authorid=106072" rel="nofollow">只看该作者</a> </div> </div> </div><div class="pct"><div class="pcb"> <div class="t_fsz"> <table cellspacing="0" cellpadding="0"><tr><td class="t_f" id="postmessage_3855116"> 没校内网啊,亲</td></tr></table> 这是网页html中的某一段,现在需要从里面匹配出authorid和之后的发言内容,在这里是'没校内网啊,亲'。大家有什么好办法么 for mo in re.finditer('<td class="t_f" id=".*">(.*)(</td></tr></table>){1}',a): print mo.group(1) 这是我的代码,a是我读取的文本,并不能实现匹配出多组结果,结果只有文本中符合条件的最后一组

python中用正则抽取第一个或第二个#前的数字

![数据](https://img-ask.csdn.net/upload/201705/05/1493968452_981568.png) ![代码](https://img-ask.csdn.net/upload/201705/05/1493968474_47248.png)

python正则表达式匹配反斜杠

本意是把地址里那个讨厌的反斜杠变成斜杠,但是用replace函数换掉反斜杠的时候总是会把反斜杠后面的a一起给替换掉,所以想用正则表达式匹配出/,再把匹配到的位置上的反斜杠换掉,但是运行后会报错或匹配不到。 ``` import re str="D:/icnet/data/cityscape/leftImg8bit/train\aachen" print(re.search("\\",str,re.I)) ``` ![图片说明](https://img-ask.csdn.net/upload/201905/01/1556708146_332676.png) ``` import re str="D:/icnet/data/cityscape/leftImg8bit/train\aachen" print(re.search(r"\\",str,re.I)) ``` ![图片说明](https://img-ask.csdn.net/upload/201905/01/1556708161_719300.png) 我又尝试匹配\加任意一个字母的模式(因为除了这条还有很多其他地址,反斜杠后跟的字母都不一样)但是无论用“\\.”或者元字符的r“\.”都匹配不到\a,请问问题到底出在哪里呢? ``` import re str="D:/icnet/data/cityscape/leftImg8bit/train\aachen" print(re.search("\\.",str,re.I)) ``` ![图片说明](https://img-ask.csdn.net/upload/201905/01/1556708276_635323.png)

python正则表达式匹配网页标签中的双引号

如图所示,我想匹配第一张图片,关键内容就是在<span class="14">里面,但是我按照第二幅图片写pattern的话,会报错,一个也搜索不到,求救各位大神,谢谢!! ![图片说明](https://img-ask.csdn.net/upload/201608/14/1471173508_466407.png) ![图片说明](https://img-ask.csdn.net/upload/201608/14/1471173522_589984.png)

python正则表达式如何匹配网页标签中的双引号

如图所示,我想匹配第一张图片,关键内容就是在<span class="14">里面,但是我按照第二幅图片写pattern的话,会报错,一个也搜索不到,求救各位大神,谢谢!! ![图片说明](https://img-ask.csdn.net/upload/201608/14/1471145085_69192.png) ![图片说明](https://img-ask.csdn.net/upload/201608/14/1471145070_15894.png)

python 正则匹配 有重叠区时只能匹配到第一个 如何能将所有符合条件的都匹配到???

python 正则匹配 有重叠区时只能匹配到第一个 如何能将所有符合条件的都匹配到,示例如下 >>> a='GGGTCCC' >>> re.findall('GG.{2}CC',a) ['GGGTCC'] >>> 如何才能将两个符合条件的(即['GGGTCC']和['GGTCCC'])都匹配到

python中用正则表达式去掉除汉字以外的所有字符

因为我是刚学!有可能问题很智障·大家谅解! >>> print(title) [<title>国内新闻_新闻中心_新浪网</title>] 怎么才能只取到文字部分!谢谢!

如何用正则表达式匹配HTML标签内文字内容

![图片说明](https://img-ask.csdn.net/upload/201705/12/1494550802_115758.png)如求教各位大神,请问如何使用正则表达式匹配上图HTML页面内的相应字段达到返回 被告人 后面相应的字段,比如上图所示,通过使用正则表达式返回值“晋城市华东煤炭销售有限责任公司”

python re正则表达式,怎么匹配一段字符中间 的部分,已知头尾

例如:12\<34\<123456>123 需要输出的结果是<>中间的 123456 一开始我是这么写的 re.findall(<(.*?)>) 但是输出的结果是 34\<123456 应该怎么写才能正确获取到<>中的数据呢 刚学python 爬虫,求大佬指路

python 正则表达式多个关键词查询,短的关键词未查询出来

``` temp = r"this is string1, that is string2" re_keys = re.compile(r"string1|string2|th|str") res = re_keys.findall(temp) print(res) ``` 输出结果为:['th', 'string1', 'th', 'string2'] 为什么没有关键词“str"的结果啊

在python中如何使用正则的分组,进行匹配?

**使用的是python3** ![图片说明](https://img-ask.csdn.net/upload/201706/16/1497604538_745758.png) ![图片说明](https://img-ask.csdn.net/upload/201706/16/1497604547_74087.png) ![图片说明](https://img-ask.csdn.net/upload/201706/16/1497604873_139846.png) 我觉得应该是这个 imglist = re.findall(imgre,html) 语法不对 谁知道正确的语法是什么 哪位大神能帮改下 ``` import re import urllib.request def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html def getImg(html): reg1 = r'<img src="([\s\S]*?)" data-baiduimageplus-ignore="1">' g0 = re.search(reg1,html).group(0) print(g0) # reg = r'src="([.*\S]*\.jpg)" pic_ext="jpeg"' # imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglist html = getHtml("http://huaban.com/") html = html.decode("UTF-8") imgList = getImg(html) imgName = 0 for imgPath in imgList: f = open("pic/"+str(imgName)+".jpg","wb") print(imgPath) f.write((urllib.request.urlopen(imgPath)).read()) f.close() imgName +=1 print("All done") ``` 有了一点进展 网上有人说用search 我找了一个demo,并修改了我的代码 ![图片说明](https://img-ask.csdn.net/upload/201706/16/1497605588_142995.png) 但是还是报错 ![图片说明](https://img-ask.csdn.net/upload/201706/16/1497605730_46782.png)

python正则表达式怎么匹配html这个td

这是网页源代码中要抓取那个1,网页是一个表,这是第一列,怎样匹配每一行的这个数值并求和 <td style="border-bottom: windowtext 0.5pt solid; border-top-color: windowtext; border-left-color: windowtext; border-right: windowtext 0.5pt solid"> <span style="font-size: small"><span style="font-family: 宋体">1</span></span></td>

大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

Linux面试题(2020最新版)

文章目录Linux 概述什么是LinuxUnix和Linux有什么区别?什么是 Linux 内核?Linux的基本组件是什么?Linux 的体系结构BASH和DOS之间的基本区别是什么?Linux 开机启动过程?Linux系统缺省的运行级别?Linux 使用的进程间通信方式?Linux 有哪些系统日志文件?Linux系统安装多个桌面环境有帮助吗?什么是交换空间?什么是root帐户什么是LILO?什...

Linux命令学习神器!命令看不懂直接给你解释!

大家都知道,Linux 系统有非常多的命令,而且每个命令又有非常多的用法,想要全部记住所有命令的所有用法,恐怕是一件不可能完成的任务。 一般情况下,我们学习一个命令时,要么直接百度去搜索它的用法,要么就直接用 man 命令去查看守冗长的帮助手册。这两个都可以实现我们的目标,但有没有更简便的方式呢? 答案是必须有的!今天给大家推荐一款有趣而实用学习神器 — kmdr,让你解锁 Linux 学习新姿势...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

史上最全的 python 基础知识汇总篇,没有比这再全面的了,建议收藏

网友们有福了,小编终于把基础篇的内容全部涉略了一遍,这是一篇关于基础知识的汇总的文章,请朋友们收下,不用客气,不过文章篇幅肯能会有点长,耐心阅读吧爬虫(七十)多进程multiproces...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置。 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

新一代神器STM32CubeMonitor介绍、下载、安装和使用教程

关注、星标公众号,不错过精彩内容作者:黄工公众号:strongerHuang最近ST官网悄悄新上线了一款比较强大的工具:STM32CubeMonitor V1.0.0。经过我研究和使用之...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

大学一路走来,学习互联网全靠这几个网站,最终拿下了一把offer

大佬原来都是这样炼成的

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

什么时候跳槽,为什么离职,你想好了么?

都是出来打工的,多为自己着想

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

你期望月薪4万,出门右拐,不送,这几个点,你也就是个初级的水平

先来看几个问题通过注解的方式注入依赖对象,介绍一下你知道的几种方式@Autowired和@Resource有何区别说一下@Autowired查找候选者的...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

立即提问
相关内容推荐