在查询的过程中,我发现URL构成大致为:https://{0}.http://zu.ke.com/zufang/pg{1}
并且每一个房源有唯一房源编号,构成具体页面链接可进行访问。
所以我设置MySQL两列:1.自增ID做主键,2.房源编号唯一
但是在爬取过程中,通过改变pg的页数,得到的房源编号重复比例极大,一页30条,大致100页,最终结果只有三百多条(一开始以为代码没写对,后来我用单线程检查了循环数,返回是否有问题,用print发现不同页面很多返回的ID都是重复的)
后来我以为是推荐系统的问题,然后登录,写入cookie,得到的结果大致还是这样。
如何解决这种问题,感谢。
https://bj.zu.ke.com/zufang。 无论登录与否,刷新页面得到的结果都是不同的。和响应时间没太大关系