zekegeng 2023-03-01 15:21 采纳率: 50%
浏览 62
已结题

python爬虫获取内容不全是怎么回事?

python小学生,找了段代码改了改,结果8134条数据只爬下来五千多条,求赐教
附上代码:

import requests
import pandas as pd
requests.packages.urllib3.disable_warnings()
# 该公司的id
company_id = '1999074'

# 该公司的人员信息有82页
for page in range(1,82):
    # 构造data参数
    url = 'https://exam.sac.net.cn/pages/registration/train-line-register!list.action'
    data = {'filter_EQS_AOI_ID': company_id,
            'filter_EQS_PTI_ID': 0,
            'page.searchFileName': 'homepage',
            'page.sqlKey': 'PAGE_FINISH_PUBLICITY',
            'page.sqlCKey': 'SIZE_FINISH_PUBLICITY',
            '_search': 'false',
            'page.pageSize': 100,
            'page.pageNo': page,
            'page.orderBy': 'id',
            'page.order': 'desc'}

    # post方法访问某页
    resp = requests.post(url, data=data, verify = False)

    # 解析网页数据
    df = pd.DataFrame(resp.json()['result'])

    # 存储数据
    df.to_csv('爬虫.csv', mode='a+')

dt = pd.read_csv('爬虫.csv')

# 存储到Excel
dt.to_excel('爬虫.xlsx', index = False)

  • 写回答

2条回答 默认 最新

  • 阳光宅男xxb 2023-03-01 15:39
    关注

    你访问的这个接口就只有五千多条数据,您可以在返回的数据中看到,你可以把获取到的数据输出下resp.json():
    totalCount': 5860, 'totalPages': 59
    因此,如果要爬取更多数据,要考虑更换数据接口。望采纳!!!!!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月10日
  • 已采纳回答 3月2日
  • 创建了问题 3月1日

悬赏问题

  • ¥15 如何解决蓝牙通话音频突发失真问题
  • ¥15 安装opengauss数据库报错
  • ¥15 【急】在线问答CNC雕刻机的电子电路与编程
  • ¥60 在mc68335芯片上移植ucos ii 的成功工程文件
  • ¥15 笔记本外接显示器正常,但是笔记本屏幕黑屏
  • ¥15 Python pandas
  • ¥15 蓝牙硬件,可以用哪几种方法控制手机点击和滑动
  • ¥15 生物医学数据分析。基础课程就v经常唱课程舅成牛逼
  • ¥15 云环境云开发云函数对接微信商户中的分账功能
  • ¥15 空间转录组CRAD遇到问题