stream_ 2021-02-08 23:36 采纳率: 0%
浏览 29

请问在爬取【贝壳租房】的时候,不同页面得到的结果相同如何解决?

在查询的过程中,我发现URL构成大致为:https://{0}.http://zu.ke.com/zufang/pg{1}

并且每一个房源有唯一房源编号,构成具体页面链接可进行访问。

所以我设置MySQL两列:1.自增ID做主键,2.房源编号唯一

但是在爬取过程中,通过改变pg的页数,得到的房源编号重复比例极大,一页30条,大致100页,最终结果只有三百多条(一开始以为代码没写对,后来我用单线程检查了循环数,返回是否有问题,用print发现不同页面很多返回的ID都是重复的)

后来我以为是推荐系统的问题,然后登录,写入cookie,得到的结果大致还是这样。

如何解决这种问题,感谢。

https://bj.zu.ke.com/zufang。            无论登录与否,刷新页面得到的结果都是不同的。和响应时间没太大关系

  • 写回答

1条回答 默认 最新

  • 加勒比海鸡_ 2023-04-16 20:00
    关注

    我曾经爬招聘网站的时候也遇到过这种问题,那个网站是新发布还是有新活跃度的就是官方页面推荐列表更新打乱,就考虑做去重就好了,最简单的就是重复查数据库,我当时是借鉴网上的办法简单使用window的redis去重

    评论

报告相同问题?

悬赏问题

  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器