python爬虫获取内容不全是怎么回事？

python小学生，找了段代码改了改，结果8134条数据只爬下来五千多条，求赐教
附上代码：

import requests
import pandas as pd
requests.packages.urllib3.disable_warnings()
# 该公司的id
company_id = '1999074'

# 该公司的人员信息有82页
for page in range(1,82):
    # 构造data参数
    url = 'https://exam.sac.net.cn/pages/registration/train-line-register!list.action'
    data = {'filter_EQS_AOI_ID': company_id,
            'filter_EQS_PTI_ID': 0,
            'page.searchFileName': 'homepage',
            'page.sqlKey': 'PAGE_FINISH_PUBLICITY',
            'page.sqlCKey': 'SIZE_FINISH_PUBLICITY',
            '_search': 'false',
            'page.pageSize': 100,
            'page.pageNo': page,
            'page.orderBy': 'id',
            'page.order': 'desc'}

    # post方法访问某页
    resp = requests.post(url, data=data, verify = False)

    # 解析网页数据
    df = pd.DataFrame(resp.json()['result'])

    # 存储数据
    df.to_csv('爬虫.csv', mode='a+')

dt = pd.read_csv('爬虫.csv')

# 存储到Excel
dt.to_excel('爬虫.xlsx', index = False)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-03-01 15:39
关注
你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：
totalCount': 5860, 'totalPages': 59
因此，如果要爬取更多数据，要考虑更换数据接口。望采纳！！！！！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫如何获取Properties的内容，并解析？ python 有问必答爬虫
2021-12-01 17:44

回答 3 已采纳如果value是用户输入的数据，题主爬不了的。如果js动态加载的，需要找到数据接口来爬，而不是直接爬html，除非用selenium，其他属性可以用bs4模块解析
python爬虫如何自动获取Network中的某个XHR地址？ python 爬虫网络
2018-08-25 08:43

回答 4 已采纳楼主问的可能有点不清楚，我的理解是：https://zh.flightaware.com/live/airport/+{机场代号} 楼主有几千个机场代号，需要爬取这几千个URL的https://zh
Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据。爬虫程序通过模拟浏览器的行为，自动访问网页并提取所需的数据，如文本、图片、视频等
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
python爬虫爬取的内容与数据包中的内容不一致该怎么解决？ python 数据挖掘爬虫
2022-02-27 22:16

回答 3 已采纳你提取的就是汉字呀，那些/u开头的就是汉字的unicode编码https://blog.csdn.net/weixin_39778447/article/details/109942478 这里面有写
Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
Python爬虫，轻松获取网络数据的利器！
2024-04-09 20:49

python爬虫在当今信息爆炸的时代，如何从海量的网络数据中获取有价值的信息，成为了一个重要的课题。Python爬虫作为一种自动获取网络数据的方法，可以帮助我们快速、高效地从网络上获取所需的信息。 Python爬虫是一...
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python 爬虫 post请求返回的数据不全，和postman模拟的不一样，关键内容是个空列表 python 有问必答爬虫
2021-09-08 11:50

回答 2 已采纳经过实际测试，该站对 refer和 origin 没有验证，却验证了 content-type，你在header里加上content-type就可以了 import requests impor
python爬虫实战教学
2021-06-09 13:08

本课程是Tom老师精心准备的关于python爬虫的课程，通过本课程的学习，同学们能够使用python制作自己的爬虫，能够获取互联网上的数据。希望同学们好好学习网络爬虫，通过爬虫获取自己想要的数据并且进行大数据分析
小白如何入门 Python 爬虫？.docx
2023-04-26 22:12

编程语言基础语法无非是数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理这些，学起来会显枯燥但并不难。刚开始入门爬虫，你甚至不需要去学习python的类、多线程、模块之类的略难内容。找一个面向...
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
不踩坑的Python爬虫：Python爬虫开发与项目实战，从爬虫入门 Python
2023-03-21 20:45

为什么Python爬虫这么受欢迎呢？一方面，互联网可以获取的数据越来越多，另一方面，像 Python 这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月1日

悬赏问题

¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来

python爬虫获取内容不全是怎么回事？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新