拉勾网爬取6页就要登陆，纯网页，非json格式，求解决

拉钩网爬取，到第七页要登陆，可以设置等待时间，但花费时间长，求大佬解答，

import requests
from bs4 import BeautifulSoup
result=[]
a=0
for i in range(1,31):
     a+=1
     myHeaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'} #添加请求头
     if i==1:
         ur="https://www.lagou.com/zhaopin/xiaoyouxikaifa/?labelWords=label"
     if i==2:
         ur="https://www.lagou.com/zhaopin/xiaoyouxikaifa/2/?filterOption=2"                                #获取爬取的网页，十页的网页格式不一样
     if i>=3:
         ur='https://www.lagou.com/zhaopin/xiaoyouxikaifa/'+str(i)+'/?filterOption=3'
     r=requests.post(ur,headers=myHeaders)
     r.encoding='utf-8'
     soup=BeautifulSoup(r.text,"lxml")
     print(soup)
     if a==7:
         break

这是请求网页的代码，能不能帮忙看一下，要反爬，能不能提一个大概的思路，主要是爬得多，如果6页等每半分钟中的话，要十几天，谢谢了

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Italink 2019-08-21 23:00
关注
能否把你的代码放到代码片中，如果是要解决登录问题，可以在headers中加入你的cookies
另外我告诉你个好消息，我找到获取json数据的请求了
请求名称：positionAjax.json?needAddtionalResult=false

`

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python把爬取的网页信息写到json文件中 json python
2022-02-19 19:37

回答 1 已采纳你可以试试使用res = json.dumps(response.text)，将python数据类型str转化为json格式（虽然在python中也是字符串），但是会将\n显示出来，而不是在文件中变成
python爬虫使用json()方法将response结果转化为JSON格式时报错 json python 爬虫
2022-02-11 13:01

回答 4 已采纳网站设计了相应的反扒策略，需要把Cookie添加到headers中，这种问题一般从headers入手，有的限制User-Agent必须有，有的限制Cookie headers = { 'Cooki
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
python爬虫之爬取拉勾网职位信息
2020-12-21 15:59

import json import time import requests import csv # 1. 创建文件对象 f = open('lgposition.csv', 'w', encoding='utf-8', newline='') # 2. 基于文件对象构建 csv写入对象 csv_writer = csv.writer(f) # 3. ...
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
Python爬虫获取到的HTML格式的信息如何转换成json格式 python
2020-07-26 09:08

回答 2 已采纳 json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) 看看你的编码，是不是不是utf8或者包含了不合法的字符
网页Json格式解析和实际结果不一样 json python 爬虫
2022-05-30 19:51

回答 1 已采纳请展开header和payload，看看原网页写的跟你的是否有不同
【python】爬虫基础——JSON、requests、BeautifulSoup、lxml、爬取静态网页
2023-09-18 16:02

zz的学习笔记本的博客 JSON是⼀种存储和交换数据的语法JSON仅仅是⽂本，它能够轻松地在服务器浏览器之间传输JSON的数据格式其实就是python里面的字典格式。
Python爬取拉勾网 python 有问必答
2021-08-16 14:15

回答 2 已采纳你代码沾出来被，还要我们自己写调试吗。。
为什么python爬取下来的json格式的数据解析后不能用列表推导式输出数据? python 有问必答
2021-06-10 15:32

回答 3 已采纳 title = [i['title'] for i in data['data']['list']]
json 爬取数据数据后，如何存为excel json python
2022-01-28 21:01

回答 1 已采纳 import json import pandas as pd import time import requests LT_ITEM=[] headers = { 'user-Agent
P210624001J Python Django拉勾网信息爬取与展示网站【程序+文档】.rar
2021-07-24 20:04

爬取拉勾网Python全国招聘的求职信息，通过requests 请求获取单页面，然后分析页面加载找到数据，添加headers信息，模仿浏览器请求，最后解析页面，实现翻页爬取。根据爬取的结果信息进行数据分析与可视化，使用...
python爬取的数据怎么保存成json格式？能提供完整代码吗》我太笨了，一直搞不好 python
2020-11-26 15:45

回答 1 已采纳 def main(): dict1 = {} # 调用自定义函数，获取所有城市列表 city_list=get_all_cities() for city in ci
python爬虫之爬取拉勾网
2021-11-22 22:01

是白白的博客这次要爬取拉勾网，拉勾网的反爬做的还是很不错的啊，因为目标网站是Ajax交互的我一开始是直接分析json接口来爬取的，但是真的很麻烦，请求头一旦出点问题就给识别出来了后续我就改了一下方法用selenium来模拟浏览器...
该爬虫爬取拉勾网用户想要查询的地区的python相关招聘信息,并且进行数据处理与分析可视化
2023-01-30 20:39

该爬虫爬取拉勾网用户想要查询的地区的python相关招聘信息,并且进行数据处理与分析可视化。分析url时候，从网页源代码中我们并不能找到发布的招聘信息。但是在请求中我们看到这样一条POST请求： url：...
没有解决我的问题, 去提问

悬赏问题

¥20 删除和修改功能无法调用
¥15 kafka topic 所有分副本数修改
¥15 小程序中fit格式等运动数据文件怎样实现可视化？（包含心率信息））
¥15 如何利用mmdetection3d中的get_flops.py文件计算fcos3d方法的flops？
¥40 串口调试助手打开串口后,keil5的代码就停止了
¥15 电脑最近经常蓝屏，求大家看看哪的问题
¥60 高价有偿求java辅导。工程量较大，价格你定，联系确定辅导后将采纳你的答案。希望能给出完整详细代码，并能解释回答我关于代码的疑问疑问，代码要求如下，联系我会发文档
¥50 C++五子棋AI程序编写
¥30 求安卓设备利用一个typeC接口，同时实现向pc一边投屏一边上传数据的解决方案。
¥15 SQL Server analysis services 服务安装失败

拉勾网爬取6页就要登陆，纯网页，非json格式，求解决

1条回答 默认 最新

悬赏问题

1条回答默认最新