这种表格应如何爬取,英飞拓的第三列、第四列里存在多个文件。我按第四列的发布时间print是这个页面共有51个文件,但是按第1列的公司代码print只有30个
报错:InvalidSchema: No connection adapters were found for '2022-01-27 11:46'
python爬取网页表格一行内存在多个文件
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- CSDN专家-showbo 2022-01-27 16:00关注
直接请求数据接口获取数据接口,不需要用selenium采集,代码如下
import requests import time headers = { 'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69', 'referer':'http://www.cninfo.com.cn/new/commonUrl?url=disclosure/list/notice', 'X-Requested-With':'XMLHttpRequest' } data={'column': 'szse_latest', 'pageNum': 1, 'pageSize': 30, 'sortName': '', 'sortType':'' , 'clusterFlag': 'true'} d = requests.post('http://www.cninfo.com.cn/new/disclosure',headers=headers,data=data).json() for items in d['classifiedAnnouncements']: for item in items: print(item['secCode']) print(item['secName']) print(item['announcementTitle']) announcementTime=str(item['announcementTime'])#发布时间是时间戳,格式要转下 announcementTime=int(announcementTime[0:len(announcementTime)-3]) announcementTime=time.localtime(announcementTime) print(time.strftime("%Y-%m-%d", announcementTime)) print(item['adjunctUrl']) print('---------------') print(); print()
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报 编辑记录
悬赏问题
- ¥15 ads仿真结果在圆图上是怎么读数的
- ¥20 Cotex M3的调试和程序执行方式是什么样的?
- ¥20 java项目连接sqlserver时报ssl相关错误
- ¥15 一道python难题3
- ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
- ¥15 牛顿斯科特系数表表示
- ¥15 arduino 步进电机
- ¥20 程序进入HardFault_Handler
- ¥15 oracle集群安装出bug
- ¥15 关于#python#的问题:自动化测试