Python爬取网页时的#号是为了区分什么

for link in links:
if('href' in dict(link.attrs)):
url=urlparse.urljoin(page,link['href'])
if url.find(" ' ")!=-1:continue
url=url.split('#')[0]
哪位大神能解释一下后三行的代码的意思呀~最近在学习用Python爬取网站，但是对一些代码对网站内容的处理不是特别理解。urljoin那句的意思是把link中键为'href'的值取出来，赋值给page吗？后面两句就不是很懂了。。为什么要判断url是否有 ' 号呀，还有为什么要按#号分割，还要取列表的第一个值？多谢大神教导了

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2017-05-20 16:14
关注
#是html的锚点，所以要排除在url地址之外
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬取网页时的#号是为了区分什么
2017-05-25 00:05

JermeryBesian的博客 ‘#’在html中代表的是锚点，用来进行页面内或页面间之间的跳转，是网页制作中超级链接的一种，又称为命名锚点。命名锚记像一个迅速定位器一样是一种页面内的超级链接，运用相当普遍。1.在页面内设置锚点可以方便...
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢？答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，...
python爬取网页数据步骤,python爬取网页内容代码
2024-07-01 14:11

2401_86114879的博客这种情况即使是Python中级玩家也有概率会犯错，python3中的内置关键字：and,as,assert,break,class,continue,def,del,elif,else,except,False,finally,for,from,global,if,import,in,is,lambda,None,not,nonlocal,or...
python爬取cnvd漏洞库信息的实例
2020-09-19 15:03

本文将介绍一个使用Python爬取中国国家信息安全漏洞库（CNVD）工控漏洞信息的实例，帮助你理解如何处理反爬虫策略并有效地抓取网页数据。首先，我们需要了解目标网站的结构。在这个例子中，CNVD的工控漏洞库...
新浪微博爬虫，用python爬取新浪微博数据
2023-02-07 11:59

本程序可以连续爬取一个或多个新浪微博用户（如胡歌、迪丽热巴、郭碧婷）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。因为内容太多，这里不再赘述，...
python爬取网页数据步骤,python爬取网页详细教程
2023-12-20 16:13

w666666Wwwwwww的博客 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序...
Python爬取数据并以Json格式保存的代码示例
2025-08-08 09:22

本文将介绍如何使用 Python 实现网页爬虫，并将抓取的数据保存为 JSON 格式。为此，我们需要导入一些必要的库，包括 urllib.request（用于发送 HTTP 请求）、BeautifulSoup（用于解析 HTML 文档）、os（用于文件系统...
python爬取网页公开数据_python爬取网页数据
2020-11-21 00:53

weixin_39980917的博客原博文2019-05-08 21:51 −import re from urllib.request import urlopen ''' 爬取网页数据信息 ''' def getPage(url): response = urlopen(url) return response.read().decode('utf-8') d...相关推荐2019-09-28 ...
python编写程序爬取Boss直聘求职数据
2024-11-12 16:08

本次探讨的是如何利用Python编写程序来爬取Boss直聘网站上的求职数据。Boss直聘是一个专注于企业与求职者之间直接对接的平台，它提供大量实时更新的招聘信息。通过编写爬虫程序，我们可以批量获取如岗位类别、工作...
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
没有解决我的问题, 去提问

Python爬取网页时的#号是为了区分什么

1条回答 默认 最新

1条回答默认最新