python利用正则表达式爬取网页的问题

我在利用python正则表达式爬取网页内文本时（如下图所示）遇到了一些问题：

比如爬取250平方米吧，实现代码如下：

area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>(.*?)</span>', resp, re.DOTALL)

但是如果想按照上面的思路继续追加正则表达式爬取“南北向”这个文本就爬取不出来了:

area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>.*?</span>.*?<span class="item-line">.*?</span><span>(.*?)</span>', resp, re.DOTALL)

请问问题出在哪里啊？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

积跬步以至千里。 2019-09-30 16:37

关注

resp = '''
    <dd class="dd-item size">
        <span>4室2厅4卫</span>
        <span class="item-line"></span>
        <span>250平</span>
        <span class="item-line"></span>
        <span>南北向</span>
        <span class="item-line"></span>
        <span class="last">豪华装修</span>
    </dd>
    '''
    area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>(.*?)</span>', resp,
        re.DOTALL)
    print(area)

    area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>(.*?)</span>',
        resp, re.DOTALL)
    print(area)

这个是按照你的方式，修改之后的可用代码，区别你看图片就明白了,最后一组span标签前，少了任意匹配规则 '.*?'

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python如何使用正则表达式爬取京东商品信息
2020-12-17 13:58

如此庞大的一个电商网站，上面的商品信息是海量的，小编今天就带小伙伴利用正则表达式，并且基于输入的关键词来实现主题爬虫。首先进去京东网，输入自己想要查询的商品，小编在这里以关键词“狗粮”作为搜索对象，...
Python中使用正则表达式课件.pptx
2025-09-02 04:21

正则表达式是一种描述字符串规则的语法，它能够匹配符合特定规则的字符...通过掌握正则表达式的语法和re模块的使用方法，开发者能够高效地解决编程中遇到的字符串相关问题，大大提高编程的效率和程序处理字符串的能力。
使用Python和正则表达式爬取网页中的URL数据
2025-02-20 16:14

不会玩技术的技术girl的博客通过Python和正则表达式，我们可以轻松实现从网页中爬取URL数据。正则表达式提供了强大的文本匹配能力，而Python的requests库和re模块则为爬虫开发提供了便利。在实际应用中，需要注意遵守法律法规和网站规则，合理...
Python3使用正则表达式爬取内涵段子示例
2020-10-18 14:10

主要介绍了Python3使用正则表达式爬取内涵段子,涉及Python正则匹配与文件读写相关操作技巧,需要的朋友可以参考下
python正则表达式爬取猫眼电影top100
2020-12-24 06:45

用正则表达式爬取猫眼电影top100，具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块：鼠标先点到要导入的函数处，再Alt + Enter进行选择 from multiprocessing.pool import...
python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
2020-10-19 02:18

然而，对于初学者来说，正则表达式的语法可能会显得复杂难懂，因此本文将详细介绍Python中正则表达式的基本用法，并结合实例来讲解如何使用正则表达式爬取个人博客网站。在Python中，我们通常使用`re`模块来处理...
Python re正则表达式爬取京东商品图片.py
2020-04-19 10:47

Python re正则表达式爬取京东商品图片，实例源代码代码，部分代码：def geturllist(html): pattern = re.compile(r'data-lazy-img="//(.+?\\.jpg)"',re.M) imglist = re.findall(pattern, html) return imglist
Python + 基于正则表达式爬取汽车之家车型图片解决拦截问题！.zip
2026-01-12 10:42

本项目通过Python语言结合正则表达式技术，开发了一个爬虫程序，旨在解决爬取汽车之家车型图片时遭遇的反爬虫问题。程序通过分析汽车之家网页的结构，利用正则表达式匹配和提取车型图片的URL链接。然后，通过进一步...
Python使用正则表达式爬取网站图片信息
2022-12-02 17:29

业里村牛欢喜的博客 正则表达式来爬虫数据，抓取有用的图片信息。
Python 正则表达式爬取网站图片
2021-04-21 09:01

wx-zhou的博客使用正则表达式和 requests 模块前要知识所需模块学习路径 re re模块知识总结 requests request模块学习路径通过 re 和 requests 模块便可完成简单的图片爬取功能。行动开始我们以素材8网站为例，...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

python利用正则表达式爬取网页的问题

3条回答默认最新

码龄粉丝数原力等级 --

python利用正则表达式爬取网页的问题

3条回答 默认 最新

3条回答默认最新