我主要就是这样把文章内容运行了一下，但是这个如何更改爬取多页我不太懂，能不能教我一下

https://blog.csdn.net/m0_62428181/article/details/129597479?spm=1001.2014.3001.5502
主要是根据这个博主，但是我根据这个博主只能爬取一页的信息，怎么样爬取多页的信息？


import csv
import random
import time
from time import sleep
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver import ChromeOptions
from selenium.webdriver.common.by import By
#2.导入库
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_experimental_option('detach', True)
#去除浏览器识别
driver = webdriver.Chrome(options=option)
driver.get("https://www.51job.com/")
time.sleep(2) #防止加载缓慢，休眠2秒
script = 'Object.defineProperty(navigator, "webdriver", {get: () => false,});'
driver.execute_script(script)
driver.find_element(By.XPATH, '//*[@id="kwdselectid"]').click()
driver.find_element(By.XPATH, '//*[@id="kwdselectid"]').clear()
driver.find_element(By.XPATH, '//*[@id="kwdselectid"]').send_keys('会计')#定位输入框并查找相关职位
driver.find_element(By.XPATH, '/html/body/div[3]/div/div[1]/div/button').click()
# driver.implicitly_wait(10)
time.sleep(5)
print(driver.current_url)
jobData = driver.find_elements(By.XPATH, '//*[@id="app"]/div/div[2]/div/div/div[2]/div/div[2]/div/div[2]/div[1]/div')
for job in jobData:
        jobName = job.find_element(By.CLASS_NAME, 'jname.at').text
#         time.sleep(random.randint(5, 15) * 0.1)
        jobSalary = job.find_element(By.CLASS_NAME, 'sal').text
#         time.sleep(random.randint(5, 15) * 0.1)
        jobCompany = job.find_element(By.CLASS_NAME, 'cname.at').text
#         time.sleep(random.randint(5, 15) * 0.1)
        company_type_size = job.find_element(By.CLASS_NAME, 'dc.at').text
#         time.sleep(random.randint(5, 15) * 0.1)
        company_status = job.find_element(By.CLASS_NAME, 'int.at').text
#         time.sleep(random.randint(5, 15) * 0.1)
        address_experience_education = job.find_element(By.CLASS_NAME, 'd.at').text
#         time.sleep(random.randint(5, 15) * 0.1)
 
        try:
            job_welf = job.find_element(By.CLASS_NAME, 'tags').get_attribute('title')
        except:
            job_welf = '无数据'
        time.sleep(random.randint(5, 15) * 0.1)
 
        update_date = job.find_element(By.CLASS_NAME, 'time').text
        time.sleep(random.randint(5, 15) * 0.1)
for i in range(1,10):
    driver.find_element(By.XPATH, '//*[@id="jump_page"]').click()
    time.sleep(random.randint(10, 30) * 0.1)
    driver.find_element(By.XPATH, '//*[@id="jump_page"]').clear()
    time.sleep(random.randint(10, 40) * 0.1)
    driver.find_element(By.XPATH, '//*[@id="jump_page"]').send_keys(i)
    time.sleep(random.randint(10, 30) * 0.1)
    driver.find_element(By.XPATH,'//*[@id="app"]/div/div[2]/div/div/div[2]/div/div[2]/div/div[3]/div/div/span[3]').click()
with open('wuyou_teacher.csv', 'a', newline='') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow([jobName, jobSalary, jobCompany, company_type_size, company_status, address_experience_education,job_welf,update_date])
 
        print(jobName, jobSalary, jobCompany, company_type_size, company_status, address_experience_education, job_welf,update_date)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Richard.sysout 2023-06-03 18:08
关注
哪里有什么双重for循环，这是两个分开的for循环，不存在嵌套关系
两个循环都是在做查找元素相关的操作，哪里不明白

解决
无用 1
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

我想多线程爬取笔趣阁的一部小说但是函数不执行 python
2021-09-14 08:26

回答 5 已采纳流程如下代码所示，但是笔趣阁服务器不咋地，也没啥太大限制的反爬，所以开50个线程基本上就是反馈503了，如果你有代理ip可以加进去，然后就是线程开少点，爬取速度限制一下，比如在每个章节获取里slee
关于#python#的问题：爬虫怎么爬取vue的数据，找不到url连接，懂爬虫给我分析一下 python 爬虫
2023-02-19 14:54

回答 1 已采纳 Vue.js 是一个前端框架，常用于构建单页应用程序（SPA）和动态网页。因此，Vue.js 的数据通常是由前端通过异步请求获取并展示的，而不是像传统的多页应用程序一样，由服务器直接渲染并返回 HTM
求教，请问我在网上找到的这个代码，每次只能爬取第一页数据，怎么才能实现翻页爬取呢 python 有问必答
2021-05-08 16:50

回答 5 已采纳 resp = requests.get(f"http://www.xinfadi.com.cn/marketanalysis/0/list/{i}.shtml") 把你的代码替换成我的第一页
python爬虫爬取多个页面_python网络爬虫之使用scrapy自动爬取多个网页
2020-11-24 10:20

weixin_39542742的博客如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页对应的网页代码：我们再看进入后面章节的网页，可以看到增加了上一页对应的网页代码：...
python爬取文章不能按顺序循环 python 有问必答
2021-12-14 01:41

回答 2 已采纳这样改一下即可： def text_create(name, msg): desktop_path = "F:\\txt\\" full_path = desktop_path + n
为什么我的python爬取内容只显示最后一个数据，如果可以，希望附改正解决代码！ python 爬虫
2022-08-09 13:39

回答 3 已采纳
我用正则sub去替换标配为空，但是爬取出来还是替换不掉 python
2021-07-04 12:24

回答 2 已采纳额……道理我都懂，为什么要爬笔趣阁呢，不是可以下载的吗？别的一时半会也看不出来补充一下，按照你的写法，用re.sub是可以替换掉<巴拉巴拉>这样的东西的，但是你第三张图里标注的形如“&n
Java爬虫实战教程：CSDN文章爬取与解析技巧.zip
2024-04-29 08:59

在本Java爬虫实战教程中，我们将探讨如何利用Java技术来爬取并解析CSDN（China Software Developer Network）网站上的文章。CSDN作为中国最大的开发者社区，提供了丰富的技术文章，是学习和分享编程知识的重要平台。...
Python，有可以解答一下为什么爬取的时候回返回多个空列表没有内容，怎么解决 python
2021-11-20 01:03

回答 1 已采纳在headers字典中增加一个Cookie键值对.如果不知道怎么加，可以搜一下爬虫添加cookie.如果没有cookie池，你需要登录才有cookie.因为某些网站是需要登录才能拿到相应数据的.就像某
我想问一下为什么我这个程序只能爬到第一页的数据呀，怎么改才能抓取全部呢？ python
2022-04-15 16:40

回答 1 已采纳这个时候你就要通过自己的观察，页面怎么跳到下一页，我看着你这个，url最后有一个=1估计就是指的第一页，那就=2就是第2页，做一个循环然后动态改变=n，然后不就可以想爬几页，爬几页，这只是假设，你要去
将爬取内容写入EXCEL文件的代码运行不了 python
2021-11-28 20:36

回答 1 已采纳大哥这是个函数，您还没有调用，都没运行，肯定没结果啊。。。
python 多线程爬取小说文章内容
2024-03-28 21:42

测试xiao白的博客 python多线程爬虫小说
python爬取的数据怎么保存成json格式？能提供完整代码吗》我太笨了，一直搞不好 python
2020-11-26 15:45

回答 1 已采纳 def main(): dict1 = {} # 调用自定义函数，获取所有城市列表 city_list=get_all_cities() for city in ci
Java爬虫进阶：高效爬取CSDN技术文章.zip
2024-04-29 08:58

在本压缩包“Java爬虫进阶：高效爬取CSDN技术文章.zip”中，包含了一套关于使用Java编写高效网络爬虫的教程，特别针对CSDN（China Software Developer Network）技术文章的抓取。这个项目不仅提供了源代码，还有说明...
python爬虫爬取csdn文章内容存储为excel文件，后续添加在mysql数据库中.zip
2024-03-29 15:28

本项目“python爬虫爬取csdn文章内容存储为excel文件，后续添加在mysql数据库中”旨在展示如何利用Python来爬取知名IT社区CSDN上的文章内容，并将这些数据整理存入Excel文件，最终进一步导入到MySQL数据库中，以实现...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月3日

悬赏问题

¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振
¥20 pip2.40更新pip2.43时报错

我主要就是这样把文章内容运行了一下，但是这个如何更改爬取多页我不太懂，能不能教我一下

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新