<python>python爬取智联json页面,但是爬回来的数据不全?

1.智联一页有大概100条数据,但是爬回来只有20条
代码:
图片说明
https://img-ask.csdn.net/upload/201905/07/1557194839_124865.png
主函数:
图片说明

depth是爬取的页数,1页的时候只能在数据库看到20条记录,当把depth改成10的时候可以看到1000条信息,但是之后depth再增加(如改成20,30等)数据也不会再增加了,一直是1000条信息
图片说明
我觉得不是存储的问题,因为第一个爬取的函数返回来的页面就已经少了,只有20条,麻烦帮忙看一下这个爬取函数有什么问题,谢谢啦

2个回答

看下智联是不是采用ajax的方式滚屏异步加载的,这个你可以用浏览器访问,然后f12抓包分析下。

paris_du
P.D. 这个是可以全显示的,这样应该不存在滚屏加载把
一年多之前 回复
paris_du
P.D. https://fe-api.zhaopin.com/c/i/sou?pageSize=90&cityId=489&salary=00&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%E8%87%AA%E5%8A%A8%E5%8C%96&kt=3&=0&at=5ae7fc7da6e743f7a54536d9b9465e03&rt=5064c3e1cb794a90bb6b6a3c41cdea6e&_v=0.74245946&userCode=1021940504&x-zp-page-request-id=b37c9c2c14d84b668d22afa910a41693-1557197307054-516819
一年多之前 回复
paris_du
P.D. 我的url用的是这个:
一年多之前 回复
paris_du
P.D. 好的,我试试
一年多之前 回复

现在很多反爬机制
1 文字用特殊字体编码,http请求饭返回的是乱码
2 屏蔽频繁请求,直接返回固定页或者乱码页
3 ajax 动态加载,你需要使用 selenium 之类的

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐