zekegeng 2023-03-01 15:21 采纳率: 50%
浏览 59
已结题

python爬虫获取内容不全是怎么回事?

python小学生,找了段代码改了改,结果8134条数据只爬下来五千多条,求赐教
附上代码:

import requests
import pandas as pd
requests.packages.urllib3.disable_warnings()
# 该公司的id
company_id = '1999074'

# 该公司的人员信息有82页
for page in range(1,82):
    # 构造data参数
    url = 'https://exam.sac.net.cn/pages/registration/train-line-register!list.action'
    data = {'filter_EQS_AOI_ID': company_id,
            'filter_EQS_PTI_ID': 0,
            'page.searchFileName': 'homepage',
            'page.sqlKey': 'PAGE_FINISH_PUBLICITY',
            'page.sqlCKey': 'SIZE_FINISH_PUBLICITY',
            '_search': 'false',
            'page.pageSize': 100,
            'page.pageNo': page,
            'page.orderBy': 'id',
            'page.order': 'desc'}

    # post方法访问某页
    resp = requests.post(url, data=data, verify = False)

    # 解析网页数据
    df = pd.DataFrame(resp.json()['result'])

    # 存储数据
    df.to_csv('爬虫.csv', mode='a+')

dt = pd.read_csv('爬虫.csv')

# 存储到Excel
dt.to_excel('爬虫.xlsx', index = False)

  • 写回答

2条回答 默认 最新

  • 阳光宅男xxb 2023-03-01 15:39
    关注

    你访问的这个接口就只有五千多条数据,您可以在返回的数据中看到,你可以把获取到的数据输出下resp.json():
    totalCount': 5860, 'totalPages': 59
    因此,如果要爬取更多数据,要考虑更换数据接口。望采纳!!!!!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月10日
  • 已采纳回答 3月2日
  • 创建了问题 3月1日

悬赏问题

  • ¥20 wireshark抓不到vlan
  • ¥20 关于#stm32#的问题:需要指导自动酸碱滴定仪的原理图程序代码及仿真
  • ¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
  • ¥15 stata安慰剂检验作图但是真实值不出现在图上
  • ¥15 c程序不知道为什么得不到结果
  • ¥40 复杂的限制性的商函数处理
  • ¥15 程序不包含适用于入口点的静态Main方法
  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来