wiwj7777 2022-01-27 07:14 采纳率: 100%
浏览 56
已结题

python爬取网页表格一行内存在多个文件

这种表格应如何爬取,英飞拓的第三列、第四列里存在多个文件。我按第四列的发布时间print是这个页面共有51个文件,但是按第1列的公司代码print只有30个
报错:InvalidSchema: No connection adapters were found for '2022-01-27 11:46'

img

  • 写回答

3条回答 默认 最新

  • CSDN专家-showbo 2022-01-27 08:00
    关注

    直接请求数据接口获取数据接口,不需要用selenium采集,代码如下

    img

    import requests
    import time
    headers = {
    'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69',
    'referer':'http://www.cninfo.com.cn/new/commonUrl?url=disclosure/list/notice',
    'X-Requested-With':'XMLHttpRequest'
    }
    data={'column': 'szse_latest',
    'pageNum': 1,
    'pageSize': 30,
    'sortName': '',
    'sortType':'' ,
    'clusterFlag': 'true'}
    d = requests.post('http://www.cninfo.com.cn/new/disclosure',headers=headers,data=data).json()
    for items in d['classifiedAnnouncements']:
        for item in items:
            print(item['secCode'])
            print(item['secName'])
            print(item['announcementTitle'])
    
            announcementTime=str(item['announcementTime'])#发布时间是时间戳,格式要转下
            announcementTime=int(announcementTime[0:len(announcementTime)-3])
            announcementTime=time.localtime(announcementTime)
            print(time.strftime("%Y-%m-%d", announcementTime))
            print(item['adjunctUrl'])
            print('---------------')
    
        print();
        print()
    
    
    

    img

    展开全部

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(2条)
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 2月3日
  • 已采纳回答 1月27日
  • 修改了问题 1月27日
  • 创建了问题 1月27日
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部