python爬虫数据与网页不一致

公司的任务，爬取一个网站上的数据，用的是python。通过requests抓包，得到了基本信息，包含个数、最大页数、每页行数等。前几页一切正常，但每次到最后一页的时候，requests返回的最大页数就和在网页上开启开发者模式得到不一样了，并且没有任何规律

url = 'https://glxy.mot.gov.cn/company/getCompanyAchieveList.do'
def get_the_max(comid, infopage):
params = {
"companyId": comid,
"type": 11,
"page": 1,
"rows": 15,
"sourceInfo": infopage
}
res = requests.post(url, headers=headers, params=params)
pagemax = res.json()["pageObj"]["maxPage"]
#comic = 'fe620882312c467fb935f5c5a8ebaa35'

获得结果pagemax = 4

前三页一切正常，但是翻页到第4页也就是最后一页时，从res得到的pagemax就变成了6，但用chrome开启开发者模式去查找pagemax还是4

我尝试在请求最后一页的res时将pagemax也就是page的请求修改为最初的4，但是最后得到的数据依旧有错误

想正常爬取所有页的数据

要获取的字段内容是["rows"]中的全部内容

附上全部代码
因为数据量很大，这里只以一个comid为例
并且希望可以帮忙优化一下写入excel的方法，提高速度，公司要的很着急，我一边看视频一边写程序，很垃圾，勿喷
可以加钱！！


import openpyxl
import requests
import pandas as pd

url = 'https://glxy.mot.gov.cn/company/getCompanyAchieveList.do'


def get_the_max(infopage):
    params = {
        "companyId": 'fe620882312c467fb935f5c5a8ebaa35',
        "type": 11,
        "page": 1,
        "rows": 15,
        "sourceInfo": infopage
    }
    headers = {
        'user-agnet': '''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'''
    }
    res = requests.post(url, headers=headers, params=params)

    pagemax = res.json()["pageObj"]["maxPage"]
    countsize = res.json()["pageObj"]["countSize"]
    print(params.get("companyId"), infopage, pagemax, countsize)
    return pagemax, countsize


'''爬取信息'''


def req_the_info(page, infopage, startrow, pagemax, row=15):
    params = {
        "companyId": 'fe620882312c467fb935f5c5a8ebaa35',
        "type": 11,
        "page": page,
        "rows": row,
        "sourceInfo": infopage
    }
    headers = {
        'user-agnet': '''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'''
    }
    res = requests.post(url, headers=headers, params=params)
    # print(res.status_code)


    lst = []
    for i in range(0, row):
        qq = res.json()["pageObj"]["maxPage"]
        cont = res.json()["rows"][i]
        print(infopage, page, qq, i, row)
        if qq != pagemax:
            startrow = write_the_wrong(lst=lst, pagemax=pagemax, row=row, infopage=infopage, startrow=startrow)
            return startrow
        else:
            lst.append(cont)
            pf = pd.DataFrame(list(lst))
            pf.to_excel(file_path, encoding='utf-8', startrow=startrow, index=False, header=False)
    startrow = startrow + row
    # print(startrow)
    return startrow


def write_the_wrong(lst, pagemax, row, infopage, startrow):
    params = {
        "companyId": 'fe620882312c467fb935f5c5a8ebaa35',
        "type": 11,
        "page": pagemax,
        "rows": row,
        "sourceInfo": infopage
    }
    headers = {
        'user-agnet': '''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'''
    }
    res = requests.post(url, headers=headers, params=params)
    for ct in range(0, row):
        print(infopage, page, pagemax, ct, row)
        contnt = res.json()["rows"][ct]
        lst.append(contnt)
        pff = pd.DataFrame(list(lst))
        pff.to_excel(file_path, encoding='utf-8', startrow=startrow, index=False, header=False)
    startrow = startrow + row
    return startrow


'''main'''
# lst = []

file_path = pd.ExcelWriter('/Users/finnleen/Desktop/content.xlsx', engine='openpyxl')
start_row = 0

for comid in list_the_id.ret:
    for infopage in range(1, 4):
        pagemax, countsize = get_the_max(comid=comid, infopage=infopage)
        if countsize == 0:
            continue
        else:
            n = countsize % 15
            for page in range(1, pagemax + 1):
                if page == pagemax and n != 0:
                    start_row = req_the_info(page=page, infopage=infopage, row=n, startrow=start_row, pagemax=pagemax)
                else:
                    start_row = req_the_info(page=page, infopage=infopage, startrow=start_row, pagemax=pagemax)


file_path.close()

再附一些comic，以供测试
5dadcd6f90d5461fa2d2c37dcefe6426
affc37528e3242339f24ae92a0dc164c
cd0d6fe58f384b169b5ebf059c94e69e

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
iachel 2022-08-16 19:37
关注
rows是行数，你改成10000，一次性爬完，不用翻页。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬取的内容与数据包中的内容不一致该怎么解决？ python 数据挖掘爬虫
2022-02-27 22:16

回答 3 已采纳你提取的就是汉字呀，那些/u开头的就是汉字的unicode编码https://blog.csdn.net/weixin_39778447/article/details/109942478 这里面有写
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
python 爬虫数据可视化分析大作业全套文件
2023-11-21 19:58

Python爬虫数据可视化分析是一项综合性的任务，涵盖了多个IT领域的知识点。在这个大作业中，学生将学习如何使用Python语言编写爬虫程序，抓取互联网上的数据，并通过数据可视化工具进行深度分析。以下是对这些关键...
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
python爬虫遇到标签不全的网页 python
2022-07-23 10:52

回答 3 已采纳我知道问题的原因了,不是代码的问题,而是整个网站有url访问限制,谢谢各位了
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
Python爬虫：捕获网页表格数据的终极指南
2024-08-18 22:49

2401_85761003的博客 Python作为一种强大的编程语言，通过其丰富的库和框架，可以高效地抓取和处理网页中的表格数据。通过本文的学习，读者应能掌握使用Python抓取网页表格数据的基本方法，并能根据实际需求进行拓展和优化。在使用Python...
python 爬虫请求网页内容不一致_Python爬虫偷懒神器 — 快速构造请求头!
2021-01-24 05:40

薯条说影的博客我们在写爬虫构建请求的时候，不可避免地要添加请求头( headers )，一般来说，我们只要添加 user-agent 就能满足绝大部分需求了但这并不是绝对的，有些请求单单添加一个 user-agent 是不能获取到数据的，在不知道是...
【Python爬虫与数据分析】爬虫网络请求
2023-04-12 02:06

AllinTome的博客网络传输流程、HTTP协议、URL、长短连接，爬虫基础
【python爬虫】爬虫编程技术的解密与实战
2024-01-26 10:29

SarPro的博客作者首先解密了Python爬虫编程的关键技术，涵盖了网页解析、数据提取、请求模拟等方面。通过详细而易懂的讲解，读者能够轻松理解爬虫的基本原理与操作步骤。随后，博文以实战为导向，展示了爬虫在实际项目中的应用...
没有解决我的问题, 去提问