关于python爬虫中beautifulsoup4与正则表达式的运用问题！

import urllib.request
import re
from bs4 import BeautifulSoup

def main():
    url = "http://baike.baidu.com/view/284853.htm"
    response = urllib.request.urlopen(url)
    html = response.read()
    soup = BeautifulSoup(html, "html.parser") # 使用 Python 默认的解析器

    for each in soup.find_all(href=re.compile("view")):
        print(each.text, "->", ''.join(["http://baike.baidu.com", each["href"]]))
        # 上边用 join() 不用 + 直接拼接，是因为 join() 被证明执行效率要高很多

if __name__ == "__main__":
    main()

输出结果：

恐龙百科 -> http://baike.baidu.com/wikicategory/view?categoryName=恐龙大全
多肉百科 -> http://baike.baidu.com/wikicategory/view?categoryName=多肉植物
锁定 -> http://baike.baidu.com/view/10812319.htm

这串代码中

for each in soup.find_all(href=re.compile("view")):

这一句没有看太懂
如果将括号内的 href= 去掉或者将 href 换成其他字符的话的话就无法打印出内容，href=在这里是什么意思啊？
没有 href= 的话不也是一个完整的正则表达式吗

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
放风喽 2020-06-22 08:20
关注
soup.find_all(href=re.compile("view"))
soup.查找所有（href属性里面含有view关键字）的结果
有时间看看RE模块的用法

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 中 BeautifulSoup 的正则表达式结合使用
2025-07-11 03:53

AI Python 编程的博客本文旨在全面介绍BeautifulSoup库与正则表达式在Python中的结合使用方法，帮助开发者更高效地从HTML/XML文档中提取和处理数据。内容涵盖基础用法到高级技巧，包括性能优化和实际应用案例。文章首先介绍BeautifulSoup...
【Python网络爬虫】python爬虫用正则表达式进行数据清洗与处理
2024-04-29 10:32

左手の明天的博客在Python网络爬虫的数据清洗与处理过程中，正则表达式是一个非常强大的工具，它可以帮助我们从复杂的文本数据中提取出所需的信息。在Python中，re模块提供了对正则表达式的支持。
Python的爬虫包Beautiful Soup中用正则表达式来搜索
2020-09-21 18:47

### Python的爬虫包Beautiful Soup中使用正则表达式进行搜索在Web开发与数据抓取领域，Python凭借其简洁的语法和丰富的第三方库而备受青睐。其中，Beautiful Soup是Python中最常用的数据抓取工具之一，它能帮助...
python爬虫：使用 BeautifulSoup+正则表达式 提取数据
2021-01-21 22:02

SmallSweets的博客要获取的数据属于 script 标签中的内容，而且是部分内容，所以这里我们需要先获取指定的script标签中的内容，然后再从其中提取出我们需要的那部分数据，所以在这里我们使用 BeautifulSoup模块和 正则表达式 ...
python爬虫正则表达式使用说明
2024-10-15 10:30

yuwinter的博客 Python 爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用 Python 编写爬虫，结合正则表达式提取网页中的数据。
Python爬虫运用正则表达式的方法和优缺点
2020-10-16 12:39

首先，了解正则表达式在Python爬虫中的运用方法是非常关键的。在Python标准库中，re模块提供了正则表达式的支持，可以使用re模块中的函数进行编译、匹配和查找操作。当Python爬虫程序获取到网页内容后，会将HTML文档...
爬虫：python爬虫学习笔记之Beautifulsoup&正则表达式
2019-11-07 16:22

KaiSarH的博客 python爬虫学习笔记之Beautifulsoup&正则表达式
Python爬虫教程之利用正则表达式匹配网页内容
2021-01-19 23:30

Python爬虫，除了使用大家广为使用的scrapy架构外，还有很多包能够实现一些简单的爬虫，如BeautifulSoup、Urllib、requests，在使用这些包时，有的网络因为比较复杂，比较难以找到自己想要的代码，在这个时候，如果...
python零基础学习篇数据爬虫技巧-4正则表达式.zip
2022-05-01 11:03

在Python爬虫的学习过程中，熟练运用正则表达式可以极大地提升数据处理能力。通过不断地练习和实际应用，你将能够自如地应对各种复杂的数据抓取场景。记住，正则表达式虽然强大，但也有其局限性，对于过于复杂的结构...
【Python网络爬虫】python爬虫用正则表达式进行数据清洗与处理.txt
2024-04-30 17:54

下面将详细介绍如何在Python爬虫项目中利用正则表达式来进行数据清洗与处理。 #### 正则表达式基础 正则表达式（Regular Expression）是一种用于描述字符组合模式的语言。通过定义特定的规则，我们可以利用它来...
没有解决我的问题, 去提问

关于python爬虫中beautifulsoup4与正则表达式的运用问题！

1条回答 默认 最新

1条回答默认最新