python爬虫数据与网页不一致

公司的任务，爬取一个网站上的数据，用的是python。通过requests抓包，得到了基本信息，包含个数、最大页数、每页行数等。前几页一切正常，但每次到最后一页的时候，requests返回的最大页数就和在网页上开启开发者模式得到不一样了，并且没有任何规律

url = 'https://glxy.mot.gov.cn/company/getCompanyAchieveList.do'
def get_the_max(comid, infopage):
params = {
"companyId": comid,
"type": 11,
"page": 1,
"rows": 15,
"sourceInfo": infopage
}
res = requests.post(url, headers=headers, params=params)
pagemax = res.json()["pageObj"]["maxPage"]
#comic = 'fe620882312c467fb935f5c5a8ebaa35'

获得结果pagemax = 4

前三页一切正常，但是翻页到第4页也就是最后一页时，从res得到的pagemax就变成了6，但用chrome开启开发者模式去查找pagemax还是4

我尝试在请求最后一页的res时将pagemax也就是page的请求修改为最初的4，但是最后得到的数据依旧有错误

想正常爬取所有页的数据

要获取的字段内容是["rows"]中的全部内容

附上全部代码
因为数据量很大，这里只以一个comid为例
并且希望可以帮忙优化一下写入excel的方法，提高速度，公司要的很着急，我一边看视频一边写程序，很垃圾，勿喷
可以加钱！！


import openpyxl
import requests
import pandas as pd

url = 'https://glxy.mot.gov.cn/company/getCompanyAchieveList.do'


def get_the_max(infopage):
    params = {
        "companyId": 'fe620882312c467fb935f5c5a8ebaa35',
        "type": 11,
        "page": 1,
        "rows": 15,
        "sourceInfo": infopage
    }
    headers = {
        'user-agnet': '''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'''
    }
    res = requests.post(url, headers=headers, params=params)

    pagemax = res.json()["pageObj"]["maxPage"]
    countsize = res.json()["pageObj"]["countSize"]
    print(params.get("companyId"), infopage, pagemax, countsize)
    return pagemax, countsize


'''爬取信息'''


def req_the_info(page, infopage, startrow, pagemax, row=15):
    params = {
        "companyId": 'fe620882312c467fb935f5c5a8ebaa35',
        "type": 11,
        "page": page,
        "rows": row,
        "sourceInfo": infopage
    }
    headers = {
        'user-agnet': '''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'''
    }
    res = requests.post(url, headers=headers, params=params)
    # print(res.status_code)


    lst = []
    for i in range(0, row):
        qq = res.json()["pageObj"]["maxPage"]
        cont = res.json()["rows"][i]
        print(infopage, page, qq, i, row)
        if qq != pagemax:
            startrow = write_the_wrong(lst=lst, pagemax=pagemax, row=row, infopage=infopage, startrow=startrow)
            return startrow
        else:
            lst.append(cont)
            pf = pd.DataFrame(list(lst))
            pf.to_excel(file_path, encoding='utf-8', startrow=startrow, index=False, header=False)
    startrow = startrow + row
    # print(startrow)
    return startrow


def write_the_wrong(lst, pagemax, row, infopage, startrow):
    params = {
        "companyId": 'fe620882312c467fb935f5c5a8ebaa35',
        "type": 11,
        "page": pagemax,
        "rows": row,
        "sourceInfo": infopage
    }
    headers = {
        'user-agnet': '''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'''
    }
    res = requests.post(url, headers=headers, params=params)
    for ct in range(0, row):
        print(infopage, page, pagemax, ct, row)
        contnt = res.json()["rows"][ct]
        lst.append(contnt)
        pff = pd.DataFrame(list(lst))
        pff.to_excel(file_path, encoding='utf-8', startrow=startrow, index=False, header=False)
    startrow = startrow + row
    return startrow


'''main'''
# lst = []

file_path = pd.ExcelWriter('/Users/finnleen/Desktop/content.xlsx', engine='openpyxl')
start_row = 0

for comid in list_the_id.ret:
    for infopage in range(1, 4):
        pagemax, countsize = get_the_max(comid=comid, infopage=infopage)
        if countsize == 0:
            continue
        else:
            n = countsize % 15
            for page in range(1, pagemax + 1):
                if page == pagemax and n != 0:
                    start_row = req_the_info(page=page, infopage=infopage, row=n, startrow=start_row, pagemax=pagemax)
                else:
                    start_row = req_the_info(page=page, infopage=infopage, startrow=start_row, pagemax=pagemax)


file_path.close()

再附一些comic，以供测试
5dadcd6f90d5461fa2d2c37dcefe6426
affc37528e3242339f24ae92a0dc164c
cd0d6fe58f384b169b5ebf059c94e69e

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
iachel 2022-08-16 19:37
关注
rows是行数，你改成10000，一次性爬完，不用翻页。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
【Python爬虫与数据分析】爬虫网络请求
2023-04-12 02:06

AllinTome的博客网络传输流程、HTTP协议、URL、长短连接，爬虫基础
python爬虫爬取的内容与数据包中的内容不一致该怎么解决？ python 数据挖掘爬虫
2022-02-27 22:16

回答 3 已采纳你提取的就是汉字呀，那些/u开头的就是汉字的unicode编码https://blog.csdn.net/weixin_39778447/article/details/109942478 这里面有写
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
基于python的数据爬虫学习与体会
2022-12-17 12:03

m0_NZC_62899814的博客基于python爬虫，scrapy, selenium,pip,mysql,mongodb，学习体会
python爬虫遇到标签不全的网页 python
2022-07-23 10:52

回答 3 已采纳我知道问题的原因了,不是代码的问题,而是整个网站有url访问限制,谢谢各位了
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
python爬虫问题，在网页代码找不到自己想要的数据 python 爬虫
2022-02-24 11:15

回答 2 已采纳那个网站啊.你看下是不是写在接口中.F12开发者模式.选择XHR看下
【python爬虫】爬虫编程技术的解密与实战
2024-01-26 10:29

SarPro的博客作者首先解密了Python爬虫编程的关键技术，涵盖了网页解析、数据提取、请求模拟等方面。通过详细而易懂的讲解，读者能够轻松理解爬虫的基本原理与操作步骤。随后，博文以实战为导向，展示了爬虫在实际项目中的应用...
Python爬虫第一课：了解爬虫与浏览器原理
2022-10-15 15:05

DangerousPerson的博客浏览器工作原理爬虫工作原理爬虫的四个步骤requests库。
Python爬虫手把手教你利用爬虫爬取网页
2020-10-21 18:47

夕夕老师的博客接下来从网络爬虫的概念、用处与价值和结构等三个方面，让大家对网络爬虫有一个基本的了解。 1. 网络爬虫及其应用随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的...
python——爬虫与脚本
2022-08-20 20:23

枫糖丶的博客关于py在其他方面的脚本或爬虫应用
没有解决我的问题, 去提问