如何用python爬虫翻页并连续获取信息？

我是用python+xpath进行网络爬虫获取51job.com的信息，然后要爬取5页，我单页爬取是可以的，但是加上在网上搜的网页循环后就不行了，求大佬们帮助，后天就得交作业了，十万火急！！！谢谢~~

#1）这段是可以单独运行成功的
import requests
from lxml import etree
html = etree.HTML(r.content, etree.HTMLParser(encoding='GBK'))
for i in range(1, 5):
    url = 'https://search.51job.com/list/030200,000000,0000,00,1,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,[i].html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
    rq = requests.get(url)
    html = rq.text
#2）这段也是单页爬取是可以运行成功，但是一起运行就不可以
#import requests  #里面表示就是一页爬取信息

#url = 'https://search.51job.com/list/030200,000000,0000,00,1,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='

#r = requests.get(url)
#r.encoding = 'GBK'
#print (r.text)

#职位名
position= [html.xpath('normalize-space(//*[@id="resultList"]/div['+str(p)+']/p/span/a/text())') for p in range(4,54)]

#详情链接
links = [html.xpath('//*[@id="resultList"]/div['+str(p)+']/p/span/a/@href/text()') for p in range(4,54)]

#公司名
company= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[1]/a/text()') for p in range(4,54)]

#工作地点
adress= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[2]/text()') for p in range(4,54)]
#+str(i)+

#薪资
wage= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[3]/text()') for p in range(4,54)]

#发布时间
time= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[4]/text()') for p in range(4,54)]

链接也是可以运行，但是打印出来是空白的
图片说明

在线急！！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
幻影123！ 2023-10-15 21:03
关注
试着加一段暂停几秒，可能是太快了网站那边不给你数据

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫可以用IDLE编写吗？ python
2021-08-09 21:50

回答 4 已采纳学习爬虫用IDLE是可以的，一般IDLE可以满足初学者的使用需求。最近我也在学爬虫，写了一些实例，可以来看看我的专栏： https://blog.csdn.net/weixin_52132159/
python爬虫如何用for循环翻页 python 有问必答
2021-07-04 16:59

回答 2 已采纳重点还是从网页上分析翻页的网址构造情况，即baseurl及请求的url要写准确,另外可能需要补充一些请求参数。
话说python爬虫初中高级要会啥? python
2022-09-01 13:31

回答 1 已采纳初级爬虫工程师： Web前端的知识：HTML, CSS, JavaScript, DOM, DHTML, Ajax, jQuery,json等；正则表达式，能提取正常一般网页中想要的信息，比如某些特殊
Python教程：如何用Python编写FOFA爬虫获取信息？
2023-05-28 14:51

狗蛋的博客之旅的博客 Python教程：如何用Python编写FOFA爬虫获取信息？
关于python爬虫的问题，如何解决？ python 爬虫
2022-09-24 14:13

回答 1 已采纳可以看下python参考手册中的 python- 接下来？
python爬虫请求数据加密怎么破解？？？ python
2021-03-04 22:33

回答 3 已采纳页面地址 http://tool.liumingye.cn/music/?page=searchPage 脚本里有个encode函数，是这么加密的。如果要爬取的话用selenium比较适
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫自动翻页_python+scrapy爬虫时如何自动翻页获取内容
2021-02-04 06:24

weixin_39856055的博客自动翻页分为两种情况：此处所举例子有一定的时效性，请具体情况具体分析，方法类似(1)一种是像我之前爬虫新京报网的新闻，下一页的url可以通过审查元素获得，第一页的网址是...下一页按钮的审查元素是我们通过获取next...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
关于python 爬虫的报错，如何解决？ python
2023-01-17 17:11

回答 2 已采纳 json_music没有'data'这个字段，检查一下，应该是别的名称，print一下json_music看看,这样就ok，params你已经在url里面写上了 url='https://tonzho
python爬虫如何获取Properties的内容，并解析？ python 有问必答爬虫
2021-12-01 17:44

回答 3 已采纳如果value是用户输入的数据，题主爬不了的。如果js动态加载的，需要找到数据接口来爬，而不是直接爬html，除非用selenium，其他属性可以用bs4模块解析
python爬虫翻页操作——ajax肯德基餐厅门店信息爬取
2022-05-18 00:57

长江中下游最靓的仔的博客 python爬虫翻页操作——ajax肯德基餐厅门店信息爬取
python爬虫如何自动获取Network中的某个XHR地址？ python 爬虫网络
2018-08-25 08:43

回答 4 已采纳楼主问的可能有点不清楚，我的理解是：https://zh.flightaware.com/live/airport/+{机场代号} 楼主有几千个机场代号，需要爬取这几千个URL的https://zh
python爬虫翻页_使用Python实现博客上进行自动翻页
2020-11-25 13:25

weixin_39712611的博客运行上面的代码后执行的结果如下： >>> 我是刚获取的翻页按钮的路径数组: [, , ] 我是当前窗口的句柄: 2147483652 我是翻页按钮上的文本信息: « 上一页我是翻页按钮的地址 None 刚翻页完成了！我是翻页按钮上的...
python爬虫/ 获取多页信息并下载本地 P1-1
2023-03-21 00:18

Moniko_yo的博客 /text()') 电话=path1.xpath('//span[@class="con03"]/text()') 营业时间=path1.xpath('//span[@class="con04"]/text()') 获取信息网页观察：五.下载到本地采用的pandas写入，请导入panda模块运行代码后，D盘就会...
没有解决我的问题, 去提问

悬赏问题

¥15 stable diffusion
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算

如何用python爬虫翻页并连续获取信息？

1条回答 默认 最新

悬赏问题

1条回答默认最新