zekegeng 2023-03-01 07:21 采纳率: 50%
浏览 62
已结题

python爬虫获取内容不全是怎么回事?

python小学生,找了段代码改了改,结果8134条数据只爬下来五千多条,求赐教
附上代码:

import requests
import pandas as pd
requests.packages.urllib3.disable_warnings()
# 该公司的id
company_id = '1999074'

# 该公司的人员信息有82页
for page in range(1,82):
    # 构造data参数
    url = 'https://exam.sac.net.cn/pages/registration/train-line-register!list.action'
    data = {'filter_EQS_AOI_ID': company_id,
            'filter_EQS_PTI_ID': 0,
            'page.searchFileName': 'homepage',
            'page.sqlKey': 'PAGE_FINISH_PUBLICITY',
            'page.sqlCKey': 'SIZE_FINISH_PUBLICITY',
            '_search': 'false',
            'page.pageSize': 100,
            'page.pageNo': page,
            'page.orderBy': 'id',
            'page.order': 'desc'}

    # post方法访问某页
    resp = requests.post(url, data=data, verify = False)

    # 解析网页数据
    df = pd.DataFrame(resp.json()['result'])

    # 存储数据
    df.to_csv('爬虫.csv', mode='a+')

dt = pd.read_csv('爬虫.csv')

# 存储到Excel
dt.to_excel('爬虫.xlsx', index = False)

展开全部

  • 写回答

2条回答 默认 最新

  • 阳光宅男xxb 2023-03-01 07:39
    关注

    你访问的这个接口就只有五千多条数据,您可以在返回的数据中看到,你可以把获取到的数据输出下resp.json():
    totalCount': 5860, 'totalPages': 59
    因此,如果要爬取更多数据,要考虑更换数据接口。望采纳!!!!!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 3月9日
  • 已采纳回答 3月2日
  • 创建了问题 3月1日

悬赏问题

  • ¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
  • ¥15 minist数字识别
  • ¥15 在安装gym库的pygame时遇到问题,不知道如何解决
  • ¥20 uniapp中的webview 使用的是本地的vue页面,在模拟器上显示无法打开
  • ¥15 网上下载的3DMAX模型,不显示贴图怎么办
  • ¥15 关于#stm32#的问题:寻找一块开发版,作为智能化割草机的控制模块和树莓派主板相连,要求:最低可控制 3 个电机(两个驱动电机,1 个割草电机),其次可以与树莓派主板相连电机照片如下:
  • ¥15 Mac(标签-IDE|关键词-File) idea
  • ¥15 潜在扩散模型的Unet特征提取
  • ¥15 iscsi服务无法访问,如何解决?
  • ¥15 感应式传感器制作的感应式讯响器
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部