python爬虫翻页爬取的数据是第一页的重复数据


import pandas as pd
import chardet
from lxml import etree
import requests
import re
import time
import warnings
warnings.filterwarnings("ignore")

def get_CI(url):
    url = 'https://www.shixi.com/search/index?key=%E5%A4%A7%E6%95%B0%E6%8D%AE&districts=&education=0&full_opportunity=0&stage=0&practice_days=0&nature=0&trades=&lang=zh_cn'
    dic = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.57'}
    # 移除感叹号
    requests.packages.urllib3.disable_warnings()

    resp = requests.get(url,headers=dic,verify=False)

    resp.encoding = chardet.detect(resp.content)['encoding']
    et = etree.HTML(resp.text)

    # 公司
    company_list = et.xpath('//div[@class="job-pannel-list"]//div[@class="job-pannel-one"]//a/text()')
    company_list = [company_list[i].strip() for i in range(len(company_list)) if i % 2 != 0]

    # 岗位
    job_list = et.xpath('//div[@class="job-pannel-list"]//div[@class="job-pannel-one"]//a/text()')
    job_list = [job_list[i].strip() for i in range(len(job_list)) if i % 2 == 0]

    # 地址
    address_list = et.xpath('//div[@class="job-pannel-two"]//a/text()')

    # 学历
    degree_list = et.xpath('//div[@class="job-pannel-list"]//dd[@class="job-des"]/span/text()')

    # 薪资
    salary_list = et.xpath('//div[@class="job-pannel-two"]//div[@class="company-info-des"]//text()')
    salary_list = [i.strip() for i in salary_list]

    # 时间
    time_list = et.xpath('//div[@class="job-pannel-two"]//span[@class="job-time"]/text()')

    # 获取二级界面
    deep_url_list = et.xpath('//div[@class="job-pannel-list"]//dt/a/@href')
    x = "https://www.shixi.com"
    deep_url_list = [x + i for i in deep_url_list]

    demand_list = []


    for deep_url in deep_url_list:
        rqg = requests.get(deep_url, headers=dic, verify=False)
        rqg.encoding = chardet.detect(rqg.content)['encoding']
        html = etree.HTML(rqg.text)

        discribe =html.xpath('//div[@class="container-fluid"]//div[@class="work_b"]/text()')
        demand_list.append(discribe)

    data = {'公司名': company_list, '岗位名': job_list, '地址': address_list, "学历": degree_list,

                         '薪资': salary_list, '时间': time_list, '岗位需求量': demand_list}

    df = pd.DataFrame.from_dict(data, orient='index')
    return (df)

x = "https://www.shixi.com/search/index?key=%E5%A4%A7%E6%95%B0%E6%8D%AE&page="
url_list = [x + str(i) for i in range(1,4)]
res = pd.DataFrame(columns=['公司名', '岗位名', '地址', "学历", '薪资', '时间', '岗位需求量'])
# 翻页
for url in url_list:
    res0 = get_CI(url)
    res = pd.concat([res, res0])
    time.sleep(2)

res.to_csv('a.csv', encoding='utf_8_sig')

爬出来的是第一页的重复数据

请问怎么解决？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Mint.Coder 2021-12-18 23:46
关注
爬下一页就好了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 2
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫数据爬取清洗 python 有问必答
2021-06-22 16:13

回答 3 已采纳解题思路：1.用requests.get（网页+搜索关键词）获取搜索页面链接，再get信息页面，bs4解析获取文本保存到excel. 2.从excel读取文本，re.sub(r"[^\w]+", "
Python爬虫实战（一）：翻页爬取数据存入SqlServer
2024-04-30 14:50

前端漫画书的博客给你们看看我爬取完的效果，保存在SqlServer中：爬取的内容是：商标名、商标价格、商标编号、所属类别、专用期限、类似群组、注册范围、商标图片地址准备工作import requests # python基础爬虫库from lxml import ...
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
如何将爬虫爬取的数据进行排版 python 数据挖掘爬虫
2022-02-28 22:22

回答 1 已采纳看你想怎么处理了，可以放到一行，可以放到word里，可以用Excel，你选一个，我教你另外你的代码需要看一下，要不不好改
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
2024年最全Python爬虫实战（一）：翻页爬取数据存入SqlServer
2024-05-01 21:58

2401_84689601的博客 div_list = html.xpath(“//div[@class=‘pagination’]”) # 根据div分组try:except:page = 1print(page,‘页’)
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
Python爬虫实战（一）：翻页爬取数据存入SqlServer_python爬虫翻页
2024-05-02 22:06

2401_84563438的博客获取第一页中39个详情页地址 content_list= self.get_content_list(html_str) # 4.获取39个详情页信息 information = self.get_information(content_list) # 5.入库 self.insert_sqlserver(information) x += 1 if ...
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
2024年最全Python爬虫实战（一）：翻页爬取数据存入SqlServer(1)
2024-05-01 21:58

2401_84689601的博客 self.headers = {“User-Agent”: “Mozilla/5.0 (Windows ...获取第一页中39个详情页地址第四步：获取39个详情页信息第五步：存入SqlServer数据库第六步：实现主页翻页（1-91页）第一步我们先手动翻页，1-3页： ...
Python爬虫实战（一）：翻页爬取数据存入SqlServer_python爬虫翻页(1)
2024-05-02 22:05

2401_84563405的博客获取第一页中39个详情页地址 content_list= self.get_content_list(html_str) # 4.获取39个详情页信息 information = self.get_information(content_list) # 5.入库 self.insert_sqlserver(information) x += 1 if ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月18日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

python爬虫翻页爬取的数据是第一页的重复数据

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新