re.compile提取网页信息2.0

在爬取豆瓣网页时遇到这种情况，想要爬取片名信息，但是发现不同片名的标签种类不同，给爬取工作造成了一些困难，具体情况如下

不难想电影“这个杀手不太冷的”的片名获取途径可如1.1代码所示，1为其在原网页的代码

1.
<div class="title">
      <a href="https://movie.douban.com/subject/1295644/" target="_blank">
        这个杀手不太冷 Léon
      </a>

1.1
findTitle = re.compile(r'<div class="title">\n<a href=".*">\n\s*(.*?)\s*</a>')
        for item in soup.find_all('div', class_="bd doulist-subject"):
            item = str(item)
            print(titles)
titles = re.findall(findTitle, item)
print(titles)

而电影“肖申克的救赎”片名获取途径可如2.1代码所示，2为其在原网页的代码

2.
<div class="title">
      <a href="https://movie.douban.com/subject/1292052/" target="_blank">
          <img style="width: 16px; vertical-align: text-top;" src="https://img3.doubanio.com/f/sns/5741f726dfb46d89eb500ed038833582c9c9dcdb/pics/sns/doulist/ic_play_web@2x.png">
        肖申克的救赎 The Shawshank Redemption
      </a>

2.1
findTitle = re.compile(r'<div class="title">\n<a href=".*">\n<img src=".*"/>\s*(.*?)\s*</a>')
for item in soup.find_all('div', class_="bd doulist-subject"):
            item = str(item)
            print(titles)
titles = re.findall(findTitle, item)
print(titles)

两个源代码的区别就是否有“<img src="https://img3.doubanio.com/f/sns/5741f726dfb46d89eb500ed038833582c9c9dcdb/pics/sns/doulist/ic_play_web@2x.png" style="width: 16px; vertical-align: text-top;"/>”

即爬取时compile对象里是否加“<img src=".*"/>”

这里写成“<img src=".*"/>?”显然是不行的，起不到判断的作用（好像“?”不能作用到Tag上？原来并没有遇到过这种状况）

而且写成“(<img src=".*"/>)?”会运行成：

[('<img src="https://img3.doubanio.com/f/sns/5741f726dfb46d89eb500ed038833582c9c9dcdb/pics/sns/doulist/ic_play_web@2x.png" style="width: 16px; vertical-align: text-top;"/>', '肖申克的救赎 The Shawshank Redemption')]

所以目前是不清楚怎么同时去爬取这两片名，希望有人来帮忙解惑

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
木三136 2021-04-12 08:58
关注
您可以尝试使用xpath来找到标签，然后通过/text()或//text()来获得您想获得的内容

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

re.compile提取网页信息2.0 list python
2021-04-12 01:05

回答 2 已采纳您可以尝试使用xpath来找到标签，然后通过/text()或//text()来获得您想获得的内容
re.compile提取网页信息 list python
2021-04-11 16:07

回答 1 已采纳 s ='''<img src="https://img3.doubanio.com/f/sns/5741f726dfb46d89eb500ed038833582c9c9dcdb/pics/sn
如何解决re. compile只匹配一次的问题？ python
2021-10-07 08:42

回答 1 已采纳用findall查找即可匹配所有结果
Python批量获取高校基本信息
2022-10-28 18:22

PyCrawlFlutter Lab的博客 Python协程异步获取高校基本信息
请问如何用re.compile写正则表达式获取以下标签中的所有数字？ python 有问必答
2021-06-01 13:34

回答 3 已采纳完整python代码这样写： txt ='''<div class="v_news_content"> <P class="newsword"><SPAN id="l
re.compile()的用法区别 python 正则表达式
2021-09-11 20:28

回答 3 已采纳没啥区别,你先complie就能用这个complie后的变量的findall方法,看起来更直观一些
python爬虫使用re.findall(re.compile 筛不出数据！ python 爬虫
2022-09-20 14:01

回答 5 已采纳这是跨行匹配， .*默认是不匹配换行符的，所以匹配不到，确实需要加上re.S： re.findall(re.compile(r'◎译名(.*?)◎', re.S), mainplate_lv2)
python re模块 re 正则表达式操作
2019-01-07 17:26

冰雪满天的博客 python re模块 re 正则表达式操作　本模块提供了类似于Perl的正则表达式匹配操作。要匹配的模式和字符串可以是Unicode字符串以及8位字符串。　正则表达式使用反斜杠字符('\')来表示特殊的形式或者来允许使用...
Python正则表达式匹配图片 python
2021-03-30 12:52

回答 1 已采纳 pattern = re.compile(r'<a href="/desk.+?<img src="(.+?)"', flags=re.S)
python使用model.compile方法的时候，遇到AttributeError: 'NoneType' object has no attribute 'compile'这个问题 python 深度学习计算机视觉
2022-07-19 10:12

回答 3 已采纳别人的好像和你的不太一样 https://blog.csdn.net/weixin_43669978/article/details/120914852
python正则匹配，re.sub 问题 python 有问必答
2022-03-17 16:13

回答 3 已采纳正则匹配某字符前的内容，使用“(?=exp)” 匹配，代码可这样写： import re a = 'jackie = lusy ' find = re.compile(r'^.*(?=\s=)') p
python爬虫正则表达式
2023-02-04 00:14

心随而动的博客 str) for x in result: print(x) 123 123 123 456 sub函数除了使用正则表达式提取信息，有时候还需要他来修改文本，虽然python中提供了replace函数，但是，这样很繁琐，re库中的sub函数就能很简单的实现：例：将...
如何通过python提取word里面的选择题和填空题 python
2022-05-21 16:01

回答 1 已采纳报错信息是什么
Python2和Python3正则匹配中文时的编码问题
2019-06-29 07:56

小斌哥ge的博客 Python2和Python3正则匹配中文时的编码问题我们都会遇到这样的人，他们说话时是中文英文穿插使用的。也就是一句话中有中文也有英文，很多时候没有办法避免，尤其是说一些专业术语时，当然也有纯个人说话习惯和故意...
Python正则表达式
2021-08-03 00:01

Start9186的博客 re模块是python提供的专门用支持正则表达式的一个模块 1.1 fullmatch(正则表达式, 字符串) 让正则表达式和整个字符串进行匹配(完全匹配)，匹配失败返回None，匹配成功返回匹配对象 match(正则表达式, 字符串) - ...
【Python爬虫】第三课网页爬取
2022-10-17 09:20

笔触狂放的博客静态网页是网站建设的基础，早期的网站基本都是由静态网页构成的。静态网页通常为纯粹的HTML格式，也可以包含一部分动态效果，如GIF格式的动画，Flash，滚动字幕等，该类网页的文件扩展名为.htm,.html。静态网页通常...
python提取html正文为txt,python 提取html文本的方法
2021-06-14 08:50

落木君的博客假设我们需要从各种网页中提取全文，并且要剥离所有HTML标记。通常，默认解决方案是使用BeautifulSoup软件包中的get_text方法，该方法内部使用lxml。这是一个经过充分测试的解决方案，但是在处理成千上万个HTML文档...
Python0702-信息提取
2018-05-28 10:12

米娅爸的博客通过这些技术就能够把日志中需要的数据提取出来。 123.125 . 71.36 - - [ 06 /Apr/ 2017 : 18 : 09 : 25 + 0800 ] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 8642 "-" "Mozilla/5.0 (compatible...
没有解决我的问题, 去提问

悬赏问题

¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100
¥15 关于#hadoop#的问题
¥15 (标签-Python|关键词-socket)
¥15 keil里为什么main.c定义的函数在it.c调用不了
¥50 切换TabTip键盘的输入法
¥15 可否在不同线程中调用封装数据库操作的类
¥15 微带串馈天线阵列每个阵元宽度计算
¥15 keil的map文件中Image component sizes各项意思

re.compile提取网页信息2.0

2条回答 默认 最新

悬赏问题

2条回答默认最新