永爱果果 2021-11-07 14:16 采纳率: 0%
浏览 29

关于网页切换后的获取信息的问题

我用python爬取一些公开的文件,公开文件有提供的下载,这里有2种形式:一种是点击下载附件后切换到pdf文件(新建一个标签),并没有下载,第二种是点击下载附件后直接下载,不切换到pdf文件。其实这两种通过webdriver定位到附件下载click()后都能直接下载(用的chromedriver),但是我还是想针对第一种情况切换到第二个标签(switch_to.windows[1]),然后获取标签title或current_url,但是切换后运行driver.title或driver.current_url均提示超时300秒。我想可能是因为pdf文件太大,根本加载不上,也就没法获得相应内容了。那么此时我能对第二个标签做些什么呢,哪怕获取一点点信息也行啊,我就是想判断一下第二个标签是个PDF文档而已。谢谢!

  • 写回答

1条回答 默认 最新

  • CSDN专家-文盲老顾 2021-11-08 10:46
    关注

    获得到文件链接地址后,可以用 head 方式请求,这样用时很少,根据响应头可以得到文件信息和文件类型,用 content-type 和文件名来确定文件类型即可,content-length 则是文件大小,另外,可以直接用二进制方式保存,可以直接下载文件,自行设定超时限制即可

    评论

报告相同问题?

问题事件

  • 创建了问题 11月7日

悬赏问题

  • ¥15 目详情-五一模拟赛详情页
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看
  • ¥15 关于#Java#的问题,如何解决?
  • ¥15 加热介质是液体,换热器壳侧导热系数和总的导热系数怎么算
  • ¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
  • ¥15 cmd cl 0x000007b
  • ¥20 BAPI_PR_CHANGE how to add account assignment information for service line