需求是这样的,我需要从网站上爬取马匹的信息,当我爬取完一匹马的信息,要去爬取它的父母的信息,以及它父母的父母.以此类推下去,每次爬取完父母信息添加到数据库后,在子女的父母字段添加对应的id(刚添加的父母信息中取的id)。
当前有两个网站,一个网站是马匹的详细信息,也就是需要获取数据向数据库里面添加信息的网站,它的网站名格式是这样的 www.mapi.com/edit/马匹名称,下图为网站实图
另一个网站可以获取到马匹父母名称的网站,(有了名称就可以根据名字访问到第一个马匹详细信息的网站),它的网站名格式是这样的 www.mapi.com/马匹名称,下图为网站实图(画圈处为父母名称,后面的内容不用看)
我怎么才能在添加完一个马匹,同时添加完他的父母的信息后,在去添加父亲的父母,母亲的父母.以此类推下去添加到第一匹马的祖宗?使用递归吗?没思路,应该怎么写啊.
本人刚接触爬虫,望各位伸出援手~