请问在爬取【贝壳租房】的时候，不同页面得到的结果相同如何解决？

在查询的过程中，我发现URL构成大致为：https://{0}.http://zu.ke.com/zufang/pg{1}

并且每一个房源有唯一房源编号，构成具体页面链接可进行访问。

所以我设置MySQL两列：1.自增ID做主键，2.房源编号唯一

但是在爬取过程中，通过改变pg的页数，得到的房源编号重复比例极大，一页30条，大致100页，最终结果只有三百多条（一开始以为代码没写对，后来我用单线程检查了循环数，返回是否有问题，用print发现不同页面很多返回的ID都是重复的）

后来我以为是推荐系统的问题，然后登录，写入cookie，得到的结果大致还是这样。

如何解决这种问题，感谢。

https://bj.zu.ke.com/zufang。无论登录与否，刷新页面得到的结果都是不同的。和响应时间没太大关系

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
加勒比海鸡_ 2023-04-16 20:00
关注
我曾经爬招聘网站的时候也遇到过这种问题，那个网站是新发布还是有新活跃度的就是官方页面推荐列表更新打乱，就考虑做去重就好了，最简单的就是重复查数据库，我当时是借鉴网上的办法简单使用window的redis去重

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

贝壳找房夜神模拟器抓不到包 python 有问必答爬虫
2022-01-20 17:56

回答 2 已采纳买个usb无线网卡开WIFI热点手机连接 wireshark 没有抓不到的包
strcmp到底存在的意义是什么? c语言
2022-05-02 23:12

回答 2 已采纳比较两个字符串是不是一样的啊
公众号自动回复无法使用微信小程序
2022-07-18 20:25

回答 3 已采纳公众号如果你配置了服务器域名的话，自带的配置功能就失效了，只能自己手动开发了
python 爬取贝壳网小区名称_利用python爬取贝壳网租房信息
2020-12-05 21:55

weixin_39815456的博客最近准备换房子，在网站上寻找各种房源信息，看得眼花缭乱，于是想着能否将基本信息汇总起来便于查找，便用python将基本信息爬下来放到excel，这样一来就容易搜索了。1. 利用lxml中的xpath提取信息xpath是一门在 xml...
python爬取北京连家租房数据，可运行的python程序，打开你的爬虫之旅
2022-05-09 15:43

使用python的相关的库：requests，对北京连家租房网站的数据进行爬取，包括网站中的各项数据，例如，位置、租金、租房面积等等数据进行爬取。是一个可以爬虫入门的文件，带领你走进python的爬虫神奇世界。作为一个...
利用python爬取贝壳网租房信息
2019-08-12 20:45

嗨学编程的博客 xpath是一门在 xml文档中查找信息的语言，xpath可用来在 xml 文档中对元素和属性进行遍历。对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但xpath明显比re具有优势。具有如下优点：(1)可在xml中...
利用python爬取租房信息_利用python爬取贝壳网租房信息
2020-12-04 06:49

weixin_39581845的博客 format= workbook.add_format({'bold': True}) worksheet.write('A1', '小区名称', bold_format) worksheet.write('B1', '租房地址', bold_format) worksheet.write('C1', '房屋来源', bold_format) worksheet.write...
【实例】爬取贝壳租房10页数据
2023-03-30 23:18

路u的博客贝壳找房实例
爬取贝壳租房的数据
2023-03-30 20:14

FXGBG的博客爬取贝壳租房的数据
python--贝壳租房爬虫及数据可视化
2021-12-19 18:28

MiJolin的博客此次爬取的是贝壳网成都地区的租房信息，以下是部分源码 1.目标网址 2.确定爬虫使用的工具库 3.获取目标区域的数据 4.将数据以csv形式存储 5.运行结果 6.数据可视化 7.结果展示 ...
python 爬取贝壳网小区名称_利用python爬取贝壳网租房信息，python爬虫接单网, 最近准备换房子，...
2020-12-05 21:55

weixin_39622980的博客利用python爬取贝壳网租房信息，python爬虫接单网, 最近准备换房子，最近准备换房子，在网站上寻找各种房源信息，看得眼花缭乱，于是想着能否将基本信息汇总起来便于查找，便用python将基本信息爬下来放到excel，...
python爬取豆瓣租房信息
2020-10-24 13:03

红桃∩的博客使用python爬虫，实现获取豆瓣“北京租房”的租房信息，并筛选适合个人的房源存入Excel。使用方法都写在注释里了，请认真阅读哦~ 完整代码 import time # 设置爬虫等待时间 import requests # 获取网页数据 import ...
【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息
2020-09-11 17:40

Donvink的博客本项目应用Python爬虫、Flask框架、Echarts、WordCloud等技术将豆瓣租房信息爬取出来保存于Excel和数据库中，进行数据可视化操作、制作网页展示。包括三部分： - douban_renting：Python 爬虫将豆瓣租房上的租房...
【Python-爬虫】使用scrapy框架实现租房数据爬取
2023-06-25 11:07

瓦瓦卡卡的博客使用scrapy框架实现租房数据的爬取
python实战 | 爬取贝壳房源总数据价格提取
2021-04-23 09:34

锅盖'awa'的博客爬取贝壳房源总数据(楼盘，地址，价格，户型，面积) 第二章，房源价格爬取文章目录前言一、爬虫是什么？二、使用步骤1....在进行大数据分析或者进行数据挖掘的时候，数据源可以从某些提供数据统计的网站获得.
Python-链家网和贝壳网房价爬虫
2019-08-10 07:35

链家网和贝壳网房价爬虫，采集北京上海广州深圳等21个中国主要城市的房价数据（小区，二手房，出租房，新房），稳定可靠快速！支持csv,MySQL, MongoDB,Excel, json存储，支持Python2和3，图表展示数据，注释丰富
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

请问在爬取【贝壳租房】的时候，不同页面得到的结果相同如何解决？

1条回答 默认 最新

悬赏问题

1条回答默认最新