yangcq1126 2019-08-21 19:24 采纳率: 0%
浏览 412

拉勾网爬取6页就要登陆,纯网页,非json格式,求解决

拉钩网爬取,到第七页要登陆,可以设置等待时间,但花费时间长,求大佬解答,

import requests
from bs4 import BeautifulSoup
result=[]
a=0
for i in range(1,31):
     a+=1
     myHeaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'} #添加请求头
     if i==1:
         ur="https://www.lagou.com/zhaopin/xiaoyouxikaifa/?labelWords=label"
     if i==2:
         ur="https://www.lagou.com/zhaopin/xiaoyouxikaifa/2/?filterOption=2"                                #获取爬取的网页,十页的网页格式不一样
     if i>=3:
         ur='https://www.lagou.com/zhaopin/xiaoyouxikaifa/'+str(i)+'/?filterOption=3'
     r=requests.post(ur,headers=myHeaders)
     r.encoding='utf-8'
     soup=BeautifulSoup(r.text,"lxml")
     print(soup)
     if a==7:
         break

这是请求网页的代码,能不能帮忙看一下,要反爬,能不能提一个大概的思路,主要是爬得多,如果6页等每半分钟中的话,要十几天,谢谢了

  • 写回答

1条回答 默认 最新

  • Italink 2019-08-21 23:00
    关注

    能否把你的代码放到代码片中,如果是要解决登录问题,可以在headers中加入你的cookies
    另外我告诉你个好消息,我找到获取json数据的请求了
    请求名称:positionAjax.json?needAddtionalResult=false

    `

    评论

报告相同问题?

悬赏问题

  • ¥15 C++使用Gunplot
  • ¥15 这个电路是如何实现路灯控制器的,原理是什么,怎么求解灯亮起后熄灭的时间如图?
  • ¥15 matlab数字图像处理频率域滤波
  • ¥15 在abaqus做了二维正交切削模型,给刀具添加了超声振动条件后输出切削力为什么比普通切削增大这么多
  • ¥15 ELGamal和paillier计算效率谁快?
  • ¥15 file converter 转换格式失败 报错 Error marking filters as finished,如何解决?
  • ¥15 Arcgis相交分析无法绘制一个或多个图形
  • ¥15 关于#r语言#的问题:差异分析前数据准备,报错Error in data[, sampleName1] : subscript out of bounds请问怎么解决呀以下是全部代码:
  • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
  • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)