wiwj7777 2022-01-27 15:14 采纳率: 100%
浏览 56
已结题

python爬取网页表格一行内存在多个文件

这种表格应如何爬取,英飞拓的第三列、第四列里存在多个文件。我按第四列的发布时间print是这个页面共有51个文件,但是按第1列的公司代码print只有30个
报错:InvalidSchema: No connection adapters were found for '2022-01-27 11:46'

img

  • 写回答

3条回答 默认 最新

  • CSDN专家-showbo 2022-01-27 16:00
    关注

    直接请求数据接口获取数据接口,不需要用selenium采集,代码如下

    img

    import requests
    import time
    headers = {
    'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69',
    'referer':'http://www.cninfo.com.cn/new/commonUrl?url=disclosure/list/notice',
    'X-Requested-With':'XMLHttpRequest'
    }
    data={'column': 'szse_latest',
    'pageNum': 1,
    'pageSize': 30,
    'sortName': '',
    'sortType':'' ,
    'clusterFlag': 'true'}
    d = requests.post('http://www.cninfo.com.cn/new/disclosure',headers=headers,data=data).json()
    for items in d['classifiedAnnouncements']:
        for item in items:
            print(item['secCode'])
            print(item['secName'])
            print(item['announcementTitle'])
    
            announcementTime=str(item['announcementTime'])#发布时间是时间戳,格式要转下
            announcementTime=int(announcementTime[0:len(announcementTime)-3])
            announcementTime=time.localtime(announcementTime)
            print(time.strftime("%Y-%m-%d", announcementTime))
            print(item['adjunctUrl'])
            print('---------------')
    
        print();
        print()
    
    
    

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 2月4日
  • 已采纳回答 1月27日
  • 修改了问题 1月27日
  • 创建了问题 1月27日

悬赏问题

  • ¥15 ads仿真结果在圆图上是怎么读数的
  • ¥20 Cotex M3的调试和程序执行方式是什么样的?
  • ¥20 java项目连接sqlserver时报ssl相关错误
  • ¥15 一道python难题3
  • ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler
  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试