我用python爬取一些公开的文件,公开文件有提供的下载,这里有2种形式:一种是点击下载附件后切换到pdf文件(新建一个标签),并没有下载,第二种是点击下载附件后直接下载,不切换到pdf文件。其实这两种通过webdriver定位到附件下载click()后都能直接下载(用的chromedriver),但是我还是想针对第一种情况切换到第二个标签(switch_to.windows[1]),然后获取标签title或current_url,但是切换后运行driver.title或driver.current_url均提示超时300秒。我想可能是因为pdf文件太大,根本加载不上,也就没法获得相应内容了。那么此时我能对第二个标签做些什么呢,哪怕获取一点点信息也行啊,我就是想判断一下第二个标签是个PDF文档而已。谢谢!
1条回答 默认 最新
- CSDN专家-文盲老顾 2021-11-08 10:46关注
获得到文件链接地址后,可以用 head 方式请求,这样用时很少,根据响应头可以得到文件信息和文件类型,用 content-type 和文件名来确定文件类型即可,content-length 则是文件大小,另外,可以直接用二进制方式保存,可以直接下载文件,自行设定超时限制即可
解决 无用评论 打赏 举报
悬赏问题
- ¥15 目详情-五一模拟赛详情页
- ¥15 有了解d3和topogram.js库的吗?有偿请教
- ¥100 任意维数的K均值聚类
- ¥15 stamps做sbas-insar,时序沉降图怎么画
- ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看
- ¥15 关于#Java#的问题,如何解决?
- ¥15 加热介质是液体,换热器壳侧导热系数和总的导热系数怎么算
- ¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
- ¥15 cmd cl 0x000007b
- ¥20 BAPI_PR_CHANGE how to add account assignment information for service line