python利用正则表达式爬取网页的问题

我在利用python正则表达式爬取网页内文本时（如下图所示）遇到了一些问题：

比如爬取250平方米吧，实现代码如下：

area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>(.*?)</span>', resp, re.DOTALL)

但是如果想按照上面的思路继续追加正则表达式爬取“南北向”这个文本就爬取不出来了:

area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>.*?</span>.*?<span class="item-line">.*?</span><span>(.*?)</span>', resp, re.DOTALL)

请问问题出在哪里啊？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答

积跬步以至千里。 2019-09-30 16:37

关注

resp = '''
    <dd class="dd-item size">
        <span>4室2厅4卫</span>
        <span class="item-line"></span>
        <span>250平</span>
        <span class="item-line"></span>
        <span>南北向</span>
        <span class="item-line"></span>
        <span class="last">豪华装修</span>
    </dd>
    '''
    area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>(.*?)</span>', resp,
        re.DOTALL)
    print(area)

    area = re.findall(r'<dd class="dd-item size">.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>.*?</span>.*?<span class="item-line">.*?</span>.*?<span>(.*?)</span>',
        resp, re.DOTALL)
    print(area)

这个是按照你的方式，修改之后的可用代码，区别你看图片就明白了,最后一组span标签前，少了任意匹配规则 '.*?'

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
python利用正则表达式爬取网页的问题 macos python 正则表达式
2019-09-30 14:21

回答 3 已采纳 ```python3 resp = ''' 4室2厅4卫 250平南北向
python 爬虫 正则表达式 打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
Python如何使用正则表达式爬取京东商品信息
2020-12-17 13:58

如此庞大的一个电商网站，上面的商品信息是海量的，小编今天就带小伙伴利用正则表达式，并且基于输入的关键词来实现主题爬虫。首先进去京东网，输入自己想要查询的商品，小编在这里以关键词“狗粮”作为搜索对象，...
正则表达式爬取网页没有反应一直运行 python 有问必答
2021-04-16 11:21

回答 4 已采纳建议使用bs4模块去清洗响应内容，这个操作比较简单
Python爬虫能不能用正则表达式爬取学历部分？ python 爬虫
2022-09-25 14:35

回答 2 已采纳你好，这种HTML结构一般用xpath匹配，对于js般用正则表达式匹配，如果非要用正则表达式匹配HTML一般用：开头+（.*?）+结尾，括号里面的内容就是你要匹配的
利用python的正则表达式从超链接取数 python 正则表达式
2022-01-19 00:07

回答 3 已采纳望被采纳 import os import re import requests if __name__ == "__main__": if not os.path.exists('./oth
Python3使用正则表达式爬取内涵段子示例
2020-10-18 14:10

主要介绍了Python3使用正则表达式爬取内涵段子,涉及Python正则匹配与文件读写相关操作技巧,需要的朋友可以参考下
正则表达式返回结果为空列表，请问怎么解决？ python 爬虫
2022-08-05 10:54

回答 3 已采纳 import requests import re headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK
使用正则表达式爬取雪球网页中的市盈率-(代码中变量：shiyinglv)属性时如何得到正确值？ python
2021-02-27 14:57

回答 1 已采纳将括号转义一下。 shiyinglv = re.findall('市盈率\(动\)：<span>(.*?)</span>', html.decode('utf-8
爬虫小白想拿正则表达式爬取豆瓣新书推荐 python
2021-06-16 12:24

回答 2 已采纳 src后面的左括号是中文的吧？另外，你可以用xpath提取数据比正则更方便哈
python正则表达式爬取猫眼电影top100
2020-12-24 06:45

用正则表达式爬取猫眼电影top100，具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块：鼠标先点到要导入的函数处，再Alt + Enter进行选择 from multiprocessing.pool import...
Python爬虫正则表达式问题 python 有问必答
2021-06-17 10:12

回答 2 已采纳用正则表达式<img class="image".*src="(.*)"可以获取元素列表： import re s = '''<img class="image" alt="coll
Python re正则表达式爬取京东商品图片.py
2020-04-19 10:47

Python re正则表达式爬取京东商品图片，实例源代码代码，部分代码：def geturllist(html): pattern = re.compile(r'data-lazy-img="//(.+?\\.jpg)"',re.M) imglist = re.findall(pattern, html) return imglist
Python使用正则表达式爬取网站图片信息
2022-12-02 17:29

业里村牛欢喜的博客 正则表达式来爬虫数据，抓取有用的图片信息。
没有解决我的问题, 去提问

悬赏问题

¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试

码龄粉丝数原力等级 --

python利用正则表达式爬取网页的问题

3条回答

码龄粉丝数原力等级 --

悬赏问题