python 爬虫问题

需求是这样的，我需要从网站上爬取马匹的信息，当我爬取完一匹马的信息，要去爬取它的父母的信息，以及它父母的父母.以此类推下去，每次爬取完父母信息添加到数据库后，在子女的父母字段添加对应的id（刚添加的父母信息中取的id）。
当前有两个网站，一个网站是马匹的详细信息，也就是需要获取数据向数据库里面添加信息的网站，它的网站名格式是这样的 www.mapi.com/edit/马匹名称,下图为网站实图

另一个网站可以获取到马匹父母名称的网站，（有了名称就可以根据名字访问到第一个马匹详细信息的网站），它的网站名格式是这样的 www.mapi.com/马匹名称，下图为网站实图（画圈处为父母名称，后面的内容不用看）

我怎么才能在添加完一个马匹，同时添加完他的父母的信息后，在去添加父亲的父母，母亲的父母.以此类推下去添加到第一匹马的祖宗？使用递归吗？没思路，应该怎么写啊.

本人刚接触爬虫，望各位伸出援手~

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
技术宅program 2023-05-16 17:44
关注
Python爬虫常见的问题包括:

被反爬虫机制屏蔽:许多网站为防止爬虫activities会部署反爬虫机制,如IP限制、User-Agent检测等,这会导致爬虫被屏蔽无法访问。
解决方法:

使用随机User-Agent:随机 masquerade 成正常用户
设置代理IP:使用代理IP随机变换IP访问
设置 time.sleep() 函数控制访问频率,降低访问强度

数据提取失败:由于网页代码更新导致原有的XPath或CSS选择器无法定位到数据,造成数据提取失败。
解决方法:

人工分析网页代码,更新选择器规则
使用更加稳定的数据抓取规则,如正则表达式等
采用机器学习或深度学习方法自动生成抓取规则

被ban:部分网站会根据爬虫特征对爬虫进行 fingerprints 封禁,导致ip被加入黑名单,无法访问。
解决方法:

使用代理IP rotation 随即变换代理地址
降低爬取频率,reduce 访问强度
模拟真实用户行为,设置随机点击与浏览等行为
改变爬虫特征,如随机变换 User-Agent 等

数据存储失败:爬取的数据量过大,超出存储空间,造成数据存储失败。
解决方法:

提高数据库存储空间
使用其他大容量存储方式,如HDFS
优化储存结构,压缩存储数据
过滤冗余数据,只储存关键信息
除此之外,爬虫启动失败、运行缓慢等也是比较常见的问题,主要原因是环境配置问题或网络问题,需要检查系统环境与网络连接。
总之,Python爬虫在实际运行中常会遇到各种问题,重要的是要分析问题根源,并采取相应的解决方法修复问题,才能确保爬虫系统稳定高效运行。如果您的爬虫也遇到问题,可以根据问题现象查找上述或其他对应的解决方案。也欢迎与我联系,我很乐意为您提供更详细的帮助。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 爬虫基础网络爬虫、数据采集、Python编程、数据处理
2023-08-12 18:32

资源描述：这个资源是关于Python爬虫基础的教程，旨在帮助初学者掌握如何使用Python编程语言构建简单的网络爬虫，从网页中抓取数据，并进行基本的数据处理和存储。内容概要：教程涵盖了Python爬虫的基本概念、...
python爬虫-Day14 网络编程入门和网络应用开发.rar
2024-08-29 09:11

python爬虫-Day14 网络编程入门和网络应用开发.rar
python爬虫的具体介绍.docx
2024-05-30 11:23

Python爬虫是指通过Python编程语言编写的，能够模拟浏览器行为，自动向目标网站发起请求，获取响应数据，并对数据进行解析、存储等操作的程序。简单来说，Python爬虫就是自动从互联网上抓取信息的“机器人”。三、...
python爬虫实战教学
2021-06-09 13:08

本课程是Tom老师精心准备的关于python爬虫的课程，通过本课程的学习，同学们能够使用python制作自己的爬虫，能够获取互联网上的数据。希望同学们好好学习网络爬虫，通过爬虫获取自己想要的数据并且进行大数据分析
python 爬虫入门实例.zip
2024-04-25 07:29

Python爬虫，简而言之，就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序，能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言，特别适合用来编写爬虫。...
python实现的爬虫demo
2024-02-20 10:29

以下是Python爬虫的几个主要优势： 1. **简洁易读**: Python的语法非常简洁和易于理解，使得编写爬虫程序变得相对简单。与其他编程语言相比，Python代码通常更加可读，逻辑清晰，这样就可以更轻松地实现和维护爬虫...
python爬虫实现demo
2024-02-20 10:30

以下是Python爬虫的几个主要优势： 1. **简洁易读**: Python的语法非常简洁和易于理解，使得编写爬虫程序变得相对简单。与其他编程语言相比，Python代码通常更加可读，逻辑清晰，这样就可以更轻松地实现和维护爬虫...
Python编程从入门到实践
2024-03-07 14:01

在Python编程语言的学习过程中，首先需要理解基础语法，包括变量定义、数据类型（如整型、浮点型、字符串、布尔型、列表、元组、字典和集合）、流程控制（如条件语句和循环结构）以及函数的使用。此外，学习Python时...
Python爬虫实战Python网络爬虫实例详细注释版最新版本
2024-11-30 07:01

其他说明：本资源内容详实，通过代码实例和案例演示让读者更好地理解Python爬虫的使用方法和技巧，同时也有一些注意事项和常见问题的解答，帮助读者更好地掌握Python爬虫实战的技能。 Python实例：详细注释版是一...
简单的python爬虫，代码完整
2018-06-21 10:24

Python是一种广泛应用于Web开发、数据分析、人工智能等多个领域的高级编程语言，其简洁明了的语法使得初学者也能快速上手。在IT行业中，Python爬虫是获取网络数据的重要工具，尤其对于数据挖掘、网站分析和自动化...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月16日

python 爬虫问题

1条回答 默认 最新

问题事件

1条回答默认最新