python爬虫获取内容不全是怎么回事？

python小学生，找了段代码改了改，结果8134条数据只爬下来五千多条，求赐教
附上代码：

import requests
import pandas as pd
requests.packages.urllib3.disable_warnings()
# 该公司的id
company_id = '1999074'

# 该公司的人员信息有82页
for page in range(1,82):
    # 构造data参数
    url = 'https://exam.sac.net.cn/pages/registration/train-line-register!list.action'
    data = {'filter_EQS_AOI_ID': company_id,
            'filter_EQS_PTI_ID': 0,
            'page.searchFileName': 'homepage',
            'page.sqlKey': 'PAGE_FINISH_PUBLICITY',
            'page.sqlCKey': 'SIZE_FINISH_PUBLICITY',
            '_search': 'false',
            'page.pageSize': 100,
            'page.pageNo': page,
            'page.orderBy': 'id',
            'page.order': 'desc'}

    # post方法访问某页
    resp = requests.post(url, data=data, verify = False)

    # 解析网页数据
    df = pd.DataFrame(resp.json()['result'])

    # 存储数据
    df.to_csv('爬虫.csv', mode='a+')

dt = pd.read_csv('爬虫.csv')

# 存储到Excel
dt.to_excel('爬虫.xlsx', index = False)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-03-01 15:39
关注
你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：
totalCount': 5860, 'totalPages': 59
因此，如果要爬取更多数据，要考虑更换数据接口。望采纳！！！！！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

基于python爬虫的中国疫情数据可视化分析
2022-04-24 15:32

本项目通过Python爬虫技术获取中国疫情的相关数据，并利用数据分析和可视化工具进行深入研究，以揭示疫情的发展趋势和特征。首先，我们需要理解Python爬虫的基本概念。Python爬虫是一种自动化程序，用于从互联网上...
python爬虫实战教学
2021-06-09 13:08

本课程是Tom老师精心准备的关于python爬虫的课程，通过本课程的学习，同学们能够使用python制作自己的爬虫，能够获取互联网上的数据。希望同学们好好学习网络爬虫，通过爬虫获取自己想要的数据并且进行大数据分析
爬虫为什么常用Python语言？
2024-06-29 11:23

凯森森讲Python的博客其实不同的编程语言都可以写爬虫，只是有些语言更适合于某些场合和目的。在这篇文章中，从性能、难度、功能、风险等方面来比较几种常见的编程语言在写爬虫方面的优缺点，并且给出我的建议和看法。在探讨为什么爬虫非...
python爬虫数据可视化分析大作业.zip
2020-06-12 15:39

在本项目中，"python爬虫数据可视化分析大作业.zip" 是一个综合性的学习资源，主要涉及了Python编程中的两个重要领域：网络爬虫（Web Scraping）和数据可视化（Data Visualization）。通过这个作业，我们可以深入...
Python 爬虫：获取网页数据的 5 种方法
2025-01-15 16:13

王子良.的博客 requestslxml：适合需要高效解析大规模网页内容的情况，支持 XPath 和 CSS 选择器。Selenium：适用于动态网页（JavaScript 渲染）的抓取，模拟浏览器行为获取动态数据。Scrapy：强大的爬虫框架，适合大规模的网页...
利用Python爬虫获取API接口：探索数据的力量
2025-01-07 15:49

不会玩技术的技术girl的博客 API（Application Programming Interface，应用程序编程接口）是一组预先定义的函数或协议，它允许不同的软件应用程序之间进行交互和通信。在Web开发中，API接口通常以HTTP请求的形式存在，通过发送特定的请求，我们...
python爬虫的具体介绍.docx
2024-05-30 11:23

Python爬虫是指通过Python编程语言编写的，能够模拟浏览器行为，自动向目标网站发起请求，获取响应数据，并对数据进行解析、存储等操作的程序。简单来说，Python爬虫就是自动从互联网上抓取信息的“机器人”。三、...
一篇最全Python 爬虫超详细讲解（零基础入门,适合小白）
2024-10-23 15:17

Python子木_的博客爬虫的基本流程：发送请求,解析网页,提取并保存数据.常用库requests用于发送请求,用于解析HTML.进阶技术：处理动态网页需要用到Selenium,而大规模爬取可以使用Scrapy框架.应对反爬：通过伪装请求头、设置延迟以及...
Python爬虫能处理大量数据吗？
2024-12-10 14:02

小爬虫程序猿的博客在items.py通过上述示例，我们可以看到Python爬虫确实能够处理大量数据，但需要合理设计和优化以克服性能和资源限制。通过采用最佳实践和利用Python生态系统中的工具，可以有效地处理大规模数据集。Python爬虫技术在...
python 爬虫入门实例.zip
2024-04-25 07:29

Python爬虫，简而言之，就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序，能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言，特别适合用来编写爬虫。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月1日

python爬虫获取内容不全是怎么回事？

2条回答 默认 最新

问题事件

2条回答默认最新