python爬取跳页url不变的网页表格数据

小白一个,刚学python爬虫1天,因为跟朋友夸下海口说简单的都会,但我这个就不会了。
具体需求:python爬取跳页url不变的网页表格数据。
url:http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html
爬取表格所有页的数据:
图片说明
求求大神救救孩纸* _*

4个回答

数据量不大的话 用selenium 自动化 ,或者抓包分析接口

qq_38154948
拉灯的小手 回复肉小萌: 定位到元素 点掉就好了
4 个月之前 回复
fighting_meng
肉小萌 第一次就用的selenium,然后被弹窗问题困扰,selenium之从入门到放弃啊
4 个月之前 回复
fighting_meng
肉小萌 关键就在这,,之前都不知道在哪看
4 个月之前 回复

附上代码:

import requests
import json
import random
import openpyxl
import time

获取每一页的数据

def get_content(page):

url = "http://gs.amac.org.cn/amac-infodisc/api/pof/fund?rand={}&page={}&size=100".format(random.random(), page)
headers = {
    'Content-Type': 'application/json',
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}
data = {}
rsp = requests.post(url=url, headers=headers, data=json.dumps(data))        # 发起请求
json_str = json.loads(rsp.text)     # 转为json处理
return json_str

json_str = get_content(0) # 访问第一页
totalPages = json_str['totalPages'] # 获取总页数

创建excel

xls = openpyxl.Workbook()

激活sheet

sheet = xls.active

要保存的列头

title = ['基金名称', '私募基金管理人名称', '托管人名称', '成立时间', '备案时间']

添加列头

sheet.append(title)

for page in range(0, totalPages+1): # 循环遍历获取每一页数据
print("当前第{}页中".format(page+1))
json_str = get_content(page) # 每次访问100条数据
for item in json_str['content']:

    if item['establishDate'] == None:
        start_time = ''
    else :
        timeArray = time.localtime(item['establishDate']/1000)      # 格式化时间戳
        start_time = time.strftime("%Y-%m-%d", timeArray)

    if item['putOnRecordDate'] == None:
        end_time = ''
    else :
        timeArray = time.localtime(item['putOnRecordDate']/1000)       # 格式化时间戳
        end_time = time.strftime("%Y-%m-%d", timeArray)

    # 添加到excel中每一行
    sheet.append([item['fundName'], item['managerName'], item['mandatorName'], start_time, end_time])
    time.sleep(1)

保存

xls.save('zjzj.xlsx')

print("抓取完成")

这个网页应该跟异步加载型的网页差不多,或者这也算是是防爬虫的手段吧。
数据是通过另一个接口的请求得到的,而不是直接由html文件给出的。
图片说明
接口中相应参数的变化,应该会使数据的返回不一样。
就给个简短的思路:
(1) 获取接口的数据(headers头部)
(2)提取接口数据 (json模块)
(3)时间戳的转换 (time模块)
(4)等等
应该是这样吧

fighting_meng
肉小萌 厉害,就是你说的步骤
4 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python 如何爬取url翻页不变的网址
-
Python 如何爬取相同url下,多个页面的链接内容
-
用Python爬取长期发送请求和返回的网页
-
<python>python爬取智联json页面,但是爬回来的数据不全?
-
关于python爬虫利用正则表达式爬取不到内容的问题
-
python 爬取网页里面的xhr文件。
-
python scrapy 爬取多页合并问题
-
菜鸟求助,大神请进:python爬取某东评论数据遇到的问题
-
python利用正则表达式爬取网页的问题
-
如何用python爬取一个网页上的问题与答案的两部分文字部分??
-
python爬虫,爬取百度百科python词条页面数据,是这个页面url的抓取不到还是其他原因?
-
请教,python+read_html爬取表格遇到问题?
-
python爬虫爬取数据存储进数据库的问题
-
跪求大神帮忙写一个非常简单的爬虫程序,爬取网页上的表格信息!
-
PYTHON 爬取金十数据 点击加载更多后 返回的网页打不开 报错 502
-
Python爬取网页requests乱码
-
Python爬取网页时的#号是为了区分什么
-
python 爬取php页面信息返回内容为空
-
学会了这些技术,你离BAT大厂不远了
每一个程序员都有一个梦想,梦想着能够进入阿里、腾讯、字节跳动、百度等一线互联网公司,由于身边的环境等原因,不知道 BAT 等一线互联网公司使用哪些技术?或者该如何去学习这些技术?或者我该去哪些获取这些技术资料?没关系,平头哥一站式服务,上面统统不是问题。平头哥整理了 BAT 等一线大厂的必备技能,并且帮你准备了对应的资料。对于整理出来的技术,如果你掌握的不牢固,那就赶快巩固,如果你还没有涉及,现在...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用eclipse或者Myeclipse开发,我想对这些朋友说IDEA 的编译速度很快,人生苦短,来不及解释了,直接上手idea吧。这篇文章每一步搭建过程都测试过了,应该不会有什么差错。本文章还有个比较优秀的特点,就是idea的使用,基本上关于idea的操作都算是比较详细的,所以不用太担心不会撸idea!最后,本文
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
接私活必备的 10 个开源项目!
点击蓝色“GitHubDaily”关注我加个“星标”,每天下午 18:35,带你逛 GitHub!作者 | SevDot来源 | http://1t.click/VE8W...
Spring高级技术梳理
Spring高级技术梳理 序言正文SpringDate部分Spring全家桶之SpringData——预科阶段Spring全家桶之SpringData——Spring 整合Hibernate与Hibernate JpaSpring全家桶之SpringData——Spring Data JPASpring全家桶之SpringData——SpringData RedisSpringBoot部分Sp...
如何在Windows中开启"上帝模式"
原文链接 : https://mp.weixin.qq.com/s?__biz=MzIwMjE1MjMyMw==&amp;mid=2650202982&amp;idx=1&amp;sn=2c6c609ce06db1cee81abf2ba797be1b&amp;chksm=8ee1438ab996ca9c2d0cd0f76426e92faa835beef20ae21b537c0867ec2773be...
飞天智能:阿里云的 AI 落地野心
当下,AI 业界不会否认的一个事实是,AI实力的比拼不再是单点的算法技术能力,而是从底层算法到应用平台的全面AI能力。单纯的算法,只是实验室里的乐趣,唯有结合商业的数据处...
为什么平头哥做芯片如此迅猛?
作者 | 胡巍巍 发自杭州云栖大会 责编 | 唐小引 出品 | CSDN(ID:CSDNnews) 2018年10月31日,阿里旗下的平头哥半导体有限公司成立。 如今,平头哥成立不到一年,就已成绩斐然。 2019年9月25日,阿里巴巴旗下半导体公司平头哥,发布含光800芯片。 2019年7月25日,平头哥发布成立后第一个基于RISC-V的处理器IP Core玄铁910。...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
多线程编程是后台开发人员的基本功
这里先给大家分享一个小故事:在我刚开始参加工作的那年,公司安排我开发一款即时通讯软件(IM,类似于 QQ 聊天软件),在这之前我心里也知道如果多线程操作一个整型值是要加锁...
分布式、多线程、高并发都不懂,拿什么去跳槽
当提起这三个词的时候,是不是很多人都认为分布式=高并发=多线程?当面试官问到高并发系统可以采用哪些手段来解决,或者被问到分布式系统如何解决一致性的问题,是不是一脸懵逼?确...
动画:用动画给面试官解释 TCP 三次握手过程
作者 | 小鹿 来源 | 公众号:小鹿动画学编程 写在前边 TCP 三次握手过程对于面试是必考的一个,所以不但要掌握 TCP 整个握手的过程,其中有些小细节也更受到面试官的青睐。 对于这部分掌握以及 TCP 的四次挥手,小鹿将会以动画的形式呈现给每个人,这样将复杂的知识简单化,理解起来也容易了很多,尤其对于一个初学者来说。 学习导图 一、TCP 是什么? TCP(Transmissio...
为什么程序员在学习编程的时候什么都记不住?
在程序员的职业生涯中,记住所有你接触过的代码是一件不可能的事情!那么我们该如何解决这一问题?作者 |Dylan Mestyanek译者 | 弯月,责编 | 屠敏出品 |...
500行代码,教你用python写个微信飞机大战
这几天在重温微信小游戏的飞机大战,玩着玩着就在思考人生了,这飞机大战怎么就可以做的那么好,操作简单,简单上手。 帮助蹲厕族、YP族、饭圈女孩在无聊之余可以有一样东西让他们振作起来!让他们的左手 / 右手有节奏有韵律的朝着同一个方向来回移动起来! 这是史诗级的发明,是浓墨重彩的一笔,是…… 在一阵抽搐后,我结束了游戏,瞬时觉得一切都索然无味,正在我进入贤者模式时,突然想到,如果我可以让更多人已不同的方式体会到这种美轮美奂的感觉岂不美哉? 所以我打开电脑,创建了一个 `plan_game.py`……
2019诺贝尔经济学奖得主:贫穷的本质是什么?
2019年诺贝尔经济学奖,颁给了来自麻省理工学院的 阿巴希·巴纳吉(Abhijit Vinayak Banerjee)、艾丝特·杜芙若(Esther Duflo)夫妇和哈...
linux:最常见的linux命令(centOS 7.6)
最常见,最频繁使用的20个基础命令如下: 皮一下,这都是干货偶,大佬轻喷 一、linux关机命令: 1.shutdown命令安全地将系统关机(推荐)参数说明: [-r] 重启计算器。 [-h] 关机后关闭电源〔halt〕。 [-c] cancel current process取消目前正在执行的关机程序。 [-time] 设定关机〔shutdown〕前的时间。 shutdown -h now ...
只因写了一段爬虫,公司200多人被抓!
“一个程序员写了个爬虫程序,整个公司200多人被端了。” “不可能吧!” 刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。 朋友说,消息很确认并且已经进入审判阶段了。 01.对消息进一步确认 朋友认识几个律师朋友,和他们有一些业务来往,得知他们想尝试把业务扩展到程序员这个群体。那段时间我刚好离职也有时间,在朋友...
别在学习框架了,那些让你起飞的计算机基础知识。
我之前里的文章,写的大部分都是与计算机基础知识相关的,这些基础知识,就像我们的内功,如果在未来想要走的更远,这些内功是必须要修炼的。框架千变万化,而这些通用的底层知识,却是几乎不变的,了解了这些知识,可以帮助我们更快着学习一门知识,更加懂得计算机的运行机制。当然,在面试中也经常会被问到,特别是对于应届生,对于春秋招,也可以看看我前阵子写过的文章历经两个月,我的秋招之路结束了!。也有读者经常问的计算...
相关热词 c# 中文ascii c#电话客服 c#开发管理系统实例 c#三个条件判断 c# mvc过滤器 c# 鼠标缩放图像 c# 空间后方交会 c#串口测试应用程序 c# 匹配 正则表达式 c#防止窗体重绘