关于python网络爬虫进行深度搜索出现的问题

小弟在做网络爬虫程序抓取指定网页的图片，有个要求就是用户可以输入指定的爬虫深度，然后爬虫程序需达到指定深度。小弟在写的时候，程序只能处理深度为1或者深度为2的请求，我仔细看了看是我的广度优先搜索写的和深度优先搜索混合了，但不知道怎么改。请求大佬们指出问题来。下面是我的代码块：

def get_href_in_depth(url_website,depth):**#url_website是请求爬虫的网站，depth为深度 
    root_website=url_website
    execute_list=[url_website]   **#把每次执行的网页链接加到这个list里边，最开始就是请求的爬虫网站**
    for i in range(int(depth)):  ** #因为输入的是deepth=input("Please specify the deep you want to reach: "),需转换为integer**
        for i in range(int(depth)):
                    for t in execute_list:
                            absolute_href_list=absolute_href(t) **#该方法会返回 t链接下所有的网页链接**
                            max_times_number=standard_length(absolute_href_list)**#该方法返回 absolute_href_list长度的众数**
                            for k in absolute_href_list:
                                    if len(k.split('/'))==max_times_number and len(k.split('/'))>len(root_website.split('/'))+i :**#因为链接中有'back'会回到深度-1的页面，所以根据此排除会回到之前网页的链接**
                                            os.chdir(os.path.split(os.path.realpath(__file__))[0])#在程序所在文件夹执行
                                            mak_dir_html_saveimage(k)#该方法为根据网站保存目录并保存该网站下的所有图片比如http://www.feimax.com/images文件夹应该为www.feimax.com和在其目录下的images并保存相应网站的图片
                                    else:
                                            absolute_href_list.remove(k)#移除回到之前网站的链接
                            execute_list=absolute_href_list

请求大佬指出问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-11-16 15:00
关注
https://blog.csdn.net/qq_25357197/article/details/80471817

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
关于python网络爬虫多线程下载图片到本地的问题 python
2019-11-18 17:47

回答 2 已采纳 pool map的使用参考这篇：[https://blog.csdn.net/weixin_36637463/article/details/86496763](https://blog.csdn.n
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python 开源项目之保姆级教程：数据结构、学习指南、机器学习实战、深度学习实战、网络爬虫。.zip
2024-01-11 11:05

软件开发设计：应用软件开发、系统软件开发、移动应用开发、网站开发C++、Java、python、web、C#等语言的项目开发与学习资料硬件与设备：单片机、EDA、proteus、RTOS、包括计算机硬件、服务器、网络设备、存储设备...
python网络爬虫访问httpbin flask python 爬虫
2022-04-10 22:54

回答 1 已采纳 import requests print(requests.get('http://httpbin.org/get').json()) 服务器在漂亮国
python爬虫网页解析页码遍历时出现问题爬虫
2022-04-23 22:42

回答 1 已采纳这样写 div = ..... if not div: div = ...
python爬虫问题遇到303 chrome python 前端
2022-08-23 15:02

回答 4 已采纳重定向了，可考虑解析响应再请求，或上selenium
基金估值纯前端爬虫.zip
2024-01-19 16:49

爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
Python网络爬虫入门
2021-12-12 08:40

学习&实践爱好者的博客 Python网络爬虫入门网络爬虫（web crawler），也叫网络蜘蛛(Web Spider)、网络机器人（Internet Bot）。简单地说，抓取万维网（World Wide Web）上所需要的数据的程序就叫网络爬虫。网络爬虫常见分类：通用...
计算机毕业设计源码：基于python音乐推荐系统+深度学习+爬虫可视化+讲解视频+LSTM算法
2023-10-30 15:48

基于python音乐推荐系统+深度学习+爬虫可视化+讲解视频+LSTM算法（包含文档+源码+部署教程） 1、开发技术 Python语言、Flask后端框架、vue前端框架、MySQL数据库基于用户协同过滤推荐算法、基于物品协同过滤推荐...
没有解决我的问题, 去提问

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题