gjfvip123
gjfvip123
采纳率37.7%
2018-05-08 01:30

selenium + phantomjs +python网络抓取问题

5
已采纳

在自己做的案例中,我提供了200个网站链接,然后进行网络抓取,每抓取一个网站就保存一个值,但是最后总有一个网站没有存值,我的分析可能是因为这个网站一直处于链接状态,

有没有什么方法可以判断链接网站的时候,如果超过多少秒还处于链接状态则退出并记录?

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

2条回答

  • oyljerry oyljerry 3年前
     from selenium import webdriver  
    d= webdriver.PhantomJS()  
    d.set_page_load_timeout(10)  
    d.set_script_timeout(10)
    
    try:  
        d.get(s)  
    except:  
        d.execute_script('window.stop()')  
    
    点赞 1 评论 复制链接分享
  • coolmanqq Mr哈哈哈哈哈哈哈哈 3年前

    有啊,官方文档里面有显式等待时长,指定一个等待条件,和一个最长等待时间,程序会判断在等待时间内条件是否满足,如果满足则返回,如果不满足会继续等待,超过时间就会抛出异常。等待条件一般可以设置为dom里面的某个元素、标签等。

    点赞 评论 复制链接分享