有一个爬取网站的思路，请各位提出宝贵意见

我正在尝试爬取一个文档网站，因为没什么经验，所以在这里说一下我的大致思路，请各位师傅指出各种不成熟的地方。
我用的爬虫是最常见的通过url进入页面爬取的，所以我想如果我要爬取整个网站的话，那么我就要需要先进入到一个页面之中，将所有的链接收集保存起来，然后爬取完进入的这个页面信息后，再遍历保存的连接，进行爬取。如果遇到同样的连接就不爬。这个是我的大致思路。
但是我有点担心通过这个模式真的能爬取完一个网站上所有的页面信息么？会不会因为页面之间关联性不强导致有一部分页面爬取不到呢？
有没有什么工具能检测爬取网站页面的百分比呢？
望各位提出宝贵的意见与批评。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_46578370 2022-02-28 17:03
关注
链接给出来，一般网站都会有导航栏，按导航栏爬就行

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

有一个爬取网站的思路，请各位提出宝贵意见 python 数据挖掘爬虫
2022-02-28 16:03

回答 1 已采纳链接给出来，一般网站都会有导航栏，按导航栏爬就行
想爬取一整个动态网站，想知道思路 python selenium
2021-10-17 20:52

回答 1 已采纳第一个问题：爬虫会遇到反爬机制以及很多防护，如果反爬机制可以绕过，用接口爬肯定是更方便，如果反爬机制绕不过去，建议selenium 第二个问题：网站开发出来肯定是按照一定规律开发的，比如添加一个分类，
写一个爬取国家统计局福建省人口数据的Python吗，各位了 python 有问必答
2021-11-20 07:20

回答 3 已采纳爬取的是福建省最近20年（2001-2020）的“年末常住人口（单位：万人）”的数据网站：https://data.stats.gov.cn/easyquery.htm?cn=E0103 import
有哪些网站用爬虫爬取能得到很有价值的数据？
2019-05-05 17:47

BC_COM的博客 1、微信好友的爬虫，了解一下你的好友全国分布，男女比例，听起来似乎是一个不错的想法，当然你还可以识别一下你的好友有多少人是用自己照片作为头像的，详细的内容可以点击这里：Python对微信好友进行简单统计分析 ...
python爬取网页表格一行内存在多个文件 python 有问必答
2022-01-27 15:14

回答 3 已采纳直接请求数据接口获取数据接口，不需要用selenium采集，代码如下 import requests import time headers = { 'user-Agent':'Mozilla/5.
python爬取数据结果是一个空列表 python 爬虫
2022-11-23 10:22

回答 4 已采纳 import requests from lxml import etree url = 'https://nba.hupu.com/stats/players' headers = {'User
怎么从爬取下的数据里面提出表格 python
2023-04-11 09:40

回答 1 已采纳判断Hit[0]是不是total，是的话就取Hit[10]也就是你要的那个423 if 'Total' in Hit[0].text: print(Hit[10].text)
基础模型的机遇与风险（一）
2021-09-24 10:10

zenRRan的博客因原文篇幅长达200余页，译文将采用连载的方式发表于哈工大SCIR公众号，敬请关注及提出宝贵的意见！引言涌现和同质化社会影响和基础模型生态系统基础模型的未来概述能力应用技术社会结论摘要随着在大...
python爬虫怎么才能爬取一个大学里所有机构的简要介绍 python
2022-12-17 19:07

回答 1 已采纳这个怎么爬，如果进入后另一个网站，还要找部门，只能逐个爬取了。爬虫里面有一个思路叫模糊查找，看看有没有最大的共同点，找到共同点再细分（最后还是要逐个分析）
重复爬取同页的第一个内容 python 爬虫
2021-12-20 22:38

回答 1 已采纳 for url in urls: html = requests.get(url, headers=headers) selector = etree.HTML(html.text)
通lxml爬取网站大图 python
2023-02-04 10:09

回答 2 已采纳该回答引用ChatGPT请参考下面的解决方案，如果可行还请点采纳，感谢！你可以用 str.replace() 方法来把 "_s" 字符串从 URL 中删除： url = "https://scpic
《自然语言处理实战入门》 ---- 【Generative AI重制版】总目录
2020-12-03 10:36

shiter的博客为使大家对该领域整体概况有一个系统、明晰的认识，同时入门一些工程实践，也借CSDN为NLP的学习，开发者们搭建一个交流的平台。我希望能够通过这个专栏《自然语言处理实战入门》和广大NLP爱好者一起学习自然语言处理...
爬取网站有验证码，获取cookie后再爬网页返回reload是为什么 python 爬虫
2021-12-28 11:51

回答 1 已采纳手动添加验证码还不如直接手动添加cookie🙈🙈🙈
【一研为定】西电考研复试问题准备
2023-04-26 15:09

chaser&upper的博客如果遇到没有听清楚的问题,可以说∶对不起老师，这个问题我没有听清楚，可以请您再说一遍吗。回答完问题加上神来之笔不怯场、有自己的思路、对老师的提问不逃避、有抗压力、不害怕追问，就算答不对但要有思路，老师...
SegmentFault 讲堂一周岁：Keep learning
2018-03-15 09:29

weixin_33698043的博客一转眼，我入职 SegmentFault 快接近一年。再回想一下，SegmentFault 讲堂也一周岁了，是时候捋一捋我们这一年都干了些啥，来和我一起回顾下你与讲堂的交集吧~ SegmentFault 讲堂成长轨迹 2017 年 3 月，讲堂正式...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月28日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

有一个爬取网站的思路，请各位提出宝贵意见

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新