采用java爬虫或phantomjs一部分百度网盘访问不了

本人小白,最近我在写一个爬虫遇到了一个问题,访问百度网盘的时候短链接地址无法访问,比如http://yun.baidu.com/s/1i4Pa7rv, 但后来我又尝试访问了几个长连接的地址都可以获取到网页源代码,我用phantomjs来访问也是如此,请问这种情况有没有人遇到,求大神指点
phantomjs代码如下:

 var page = require('webpage').create();
page.settings.userAgent = 'Mozilla/4.0 (compatible; MSIE 6.1; Windows XP)';
phantom.outputEncoding="gbk";
page.open('https://yun.baidu.com/s/1i4Pa7rv', function (status) {
    if (status == 'success') {

        console.log(page.title);
    } else {
        console.log('cannot open page');
    }
    phantom.exit();
});

运行结果如下:

图片说明

0

2个回答

用fiddler抓包看下,返回什么,是不是404

0

请问你解决了吗,我也遇到了

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的。是时候展现真正的技术了!
其他相关推荐
新世界!打开Selenium和PhantomJs的大门!--爬虫福音
前言写过爬虫的朋友一定知道我们遇到的梦魇是什么,对,没错,就是动态网页!什么是动态网页?给没有了解过的朋友普及一下,就是网页最后的内容不是一开始就是完整的,而是等代码都加载完毕之后再执行一段js代码来补充网页的内容。比如说网页最后的内容是A,最初的代码是B,B里面包含一段js代码,这段代码执行之后可以产生C,这样B+c才等于A。而我们通过网络访问网页的url得到的只是B。这样做确实在很大程度上防止了
使用PhantomJS实现模拟登陆(Java爬虫)
记录了利用PhantomJS+Java进行模拟登陆的过程,同时介绍了PhantomJS,并记录了开发过程中遇到的问题
java爬虫 用PhantomJS模拟浏览器
首先刚开始的时候,遇到了个问题,java调用代码没法启动phantomjs。然后我重新下载了一波,冲配置环境变量,重新写了下。我是windows7,所以就是java + phantomjs ,环境windows7 至于为什么要用这个,因为,爬虫有时候爬到页面源代码后发现并不能获取到想要的数据,所以需要模拟浏览器,获取浏览器获取的内容里面的数据。 对了,我是在springmvc上面搞得数据处理,...
解决centos下phantomJs无法访问https的问题
今天遇到了一个很尴尬的问题,在window上运行正常的phantomJs,结果到linux上就无法访问。如下:        而http协议的一切正常。然后开始找原因:     试了下 curl https://www.baidu.com是可以正常返回的。说明问题不在系统,而在于linux版本的phantomJs上。     个人猜想是Https安全协议的问题,我知道的一些协议如tlsv1.0  ...
phantomjs.exe
phantomjs highcarts export 用到
爬虫项目(二)用phantomjs做爬虫
这几天有事没怎么研究,最开始用的java爬虫想爬取携程,结果失败告终。 主要表现在: 1.抓取不到对应的标签,jsoup语法对应的element个数是0,推测是因为直接用get方法获取机票信息时,该网站不显示和价格信息有关的elemengt,故抓取不到。 2.抓取到的数据是错误的。价格和真正标价的相去甚远。 据说qunar和xiecheng之类的网站在反爬虫上下了些功夫。为了达到目标我也进
Java网络爬虫(十三)--PhantomJs的使用及性能优化
先说点题外话吧,在我刚开始学习爬虫的时候,有一次一个学长给了我一个需求,让我把京东图书的相关信息抓取下来。恩,因为真的是刚开始学习爬虫,并且是用豆瓣练得手,抓取了大概500篇左右的影评吧,然后存放到了mysql中,当时觉得自己厉害的不行,于是轻松的接下了这个需求。。。 然后信心满满的开始干活。。首先查看网页源代码。。。???我需要的东西源代码里面没有!!!然后去问了学长。学长给我说,这是AJAX
Java爬虫——phantomjs抓取ajax动态加载网页
(说好的第二期终于来了 >_ 1、phantomjs介绍 phantomjs实现了一个无界面的webkit浏览器。虽然没有界面,但dom渲染、js运行、网络访问、canvas/svg绘制等功能都很完备,在页面抓取、页面输出、自动化测试等方面有广泛的应用。 官网: http://phantomjs.org/ 2、问题分析 上期采用CloseableHttpClient未能抓取到我们想要的
selenium+phantomjs+java
phantomjs,所有依赖项都已打包,导入eclipse直接运行
PhantomJSDriver能访问http却不能访问https的解决方案
PhantomJSDriver能访问http却不能访问https的解决方案
Java爬虫进阶-phantomJS+selenium2抓取网站图片和小说
闲来无事,应小伙伴要求,最近写了一个专门爬取小说和美女图片的爬虫工具类,有不足之处欢迎小伙伴们指出。准备工作:            新建maven工程,导入pom依赖如下:           <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst...
java方式selenium+phantomjs动态爬虫入门案例
public void test1(){ //System.setProperty("webdriver.firefox.bin", "D:/software/Mozilla Firefox/firefox.exe"); String path = demo1.class.getClassLoader().getResource("").getPath()+"phantomjs-...
使用selenium和phantomjs解决爬虫中对渲染页面的爬取
selenium+phantomjs,headerlesschrome 一.selenium+phantomjs 1.selenium是什么:是一个浏览器的自动化测试框架,通过selenium可以写代码,通过运行代码,可以让谷歌浏览器做自动化的工作。 实现: 1.安装:pip install selenium 演示:操作谷歌浏览器,其实操作的是谷歌浏览器的驱动,由驱动来驱动浏览器,既然这...
爬虫知识点(ajax异步加载,JavaScript 动态刷新,phantomjs + selenium模拟登陆)
JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 Ajax  当你访问一个网页时 鼠标向下滑 数据不断的更新而http网址没有变化,那么这个网页就利用了ajax异步加载技术 我们与网站服务器通信的唯一方式,就是发出 HTTP 请求获取新页面
如何将爬虫完全伪装成为用户在浏览器的点击行为
另外解密恶意广告主识别的文章,据说涉密了,因为担心公司的保密协议,先删除了安全第一。     本文讲述了一种使用浏览器内核进行伪装的新爬虫,它可以轻易的欺骗CNZZ的数据统计,抓取动态内容。我首先介绍了常见的浏览器内核、浏览器内核的UserAgent,网站代码加载执行过程,随后又具体介绍了该动态爬虫的实现方法。     其实讲到爬虫的伪装,我们就要首先讲一下网站站长和爬虫的对抗之路。具体的
Python爬虫利器之PhantomJS的用法
前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了。所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。 其中有一个比较常用的工具,那就是 PhantomJS Full web stack No brow
Selenium+PhantomJS使用出错以及解决方案
问题 在学习使用selenium+PhantomJS来爬取网页的时候,刚刚运行就出现了下面的报错信息: UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn('Selen...
java使用phantomJs抓取动态页面
1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/ 2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。 3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。
防止爬虫被ban,随机更换代理IP,随机User-Agent,及setting配置,PhantomJS抓取JS网页
当有CONCURRENT_REQUESTS,没有DOWNLOAD_DELAY 时,服务器会在同一时间收到大量的请求。 当有CONCURRENT_REQUESTS,有DOWNLOAD_DELAY 时,服务器不会在同一时间收到大量的请求。 两种方法能够使 requests 不被过滤:  1. 在 allowed_domains 中加入 url  2. 在 scrapy.Request() 函数中将...
java调用phantomjs采集ajax加载生成的网页
日前有采集需求,当我把所有的对应页面的链接都拿到手,
pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面
http://blog.binux.me/2015/01/pyspider-tutorial-level-3-render-with-phantomjs/ January 10 2015 , 英文原文:http://docs.pyspider.org/en/latest/tutorial/Render-with-PhantomJS/ 在上两篇教程中,我们学习了怎么从 HTML
web爬虫学习(五)——使用PhantomJS爬取数据
数据爬取的方式有很多种,scrapy非常方便,但是毕竟存在一些复杂度,因此需要有一个简单的工具,可以方便大家使用,因此笔者整理了phantomJS,供大家使用。1、可以通过代码操作的浏览器,可以很好的解决js加载问题,但是运行速度比较慢,通常在爬虫时,一般两个方法同时使用(一般爬虫与phantomJS)。使用步骤:1、下载phantomJS,可以在官网上下载;2、配置环境变量;3、如果使用pyth...
【python 爬虫】selenium爬虫模块 phantomjs如何加代理IP
phantomjs在初始化WebDriver时就没有留proxy参数 所以可以像下图一样改一下phantomjs类的源码,就可以在phantomjs中传入proxy参数了修改 下面的代码:class WebDriver(RemoteWebDriver): """ Wrapper to communicate with PhantomJS through Ghostdriver.
爬虫工具:虚拟机Selenium和PhantomJS,ChromeDriver 镜像安装教程
虚拟机Ubuntu 16.04中安装: 1.安装Selenium命令:pip install Selenium 2.安装PhantomJS命令:sudo apt install PhantomJS 3.找到Ubuntu中谷歌所对应的的版本号: 看到网上基本没有最新的chromedriver与chrome的对应关系表,便兴起整理了一份如下,希望
爬虫phantomjs爬取网页中文乱码
下面是解决了乱码问题的代码 public static void main(String[] args) { List products = spiderWebHq(" url地址 ", "D:\\soft\\java\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe --output-encoding=U
selenium phantomjs java无界面浏览器环境搭建
selenium phantomjs java无界面浏览器环境搭建 1.http://phantomjs.org/ 下载windows版phantomjs 2.解压后bin目录下会有exe文件 3.测试代码: package se; import org.openqa.seleni
[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文档,包括:网页截图、页面加载、代码运算、DOM操作、网络请求及响应等,希望对你有所帮助~
phantomjs爬虫在docker下不能正常运行的问题
版权声明:可以任意转载,转载时请标明文章原始出处-xjtushilei和作者信息:石磊 背景和北京xx教育合作的知识图谱项目,因为xx升级了docker镜像的管理,撤掉了之前的docker,导致服务全部瘫痪。虽然立马就锁定了问题,还是记录一下吧,省的所有在centos下进行爬虫的人debug时候找不到原因。phantomjs一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只
004_Java实现百度网盘爬虫
百度网盘是个好东西,有许多的资源,对我们IT行业来说,更看中的就是学习资源了。 因为百度网盘并没有提供搜索的服务,所以我们搜索资源都只能依靠第三方软件进行搜索。 今天让我们自己实现一个百度网盘的爬虫网站,坐等收钱哦~~~ 现在的百度网盘爬虫有两种: 1. 基于google的爬虫 不需要数据库,不需要自己写爬虫,只需要调用google的接口,当然还需要能科学上网。 2.
python爬虫——用selenium和phantomjs对新浪微博PC端进行爬取(二)
。,。上一篇文章里我选择爬取简单的微博移动端,由于移动端构造简单,一般都优先爬取移动端,且因为是静态页面,我们可以直接使用xpath或者正则表达式搞定,但pc端结构就复杂得多,不能使用前面的方法。这篇文章我尝试使用selenium加phantomjs的组合,模拟人的操作来对指定微博的PC端进行爬取。         这次我们选择的种子网页依旧是工商秘密微博,但爬取信息范围更广,我们需要爬虫不止拿
爬虫使用selenium和PhantomJS获取动态数据
创建一个scrapy项目,在终端输入如下命令后用pycharm打开桌面生成的zhilian项目 cd Desktop scrapy startproject zhilian cd zhilian scrapy genspider Zhilian sou.zhilian.com middlewares.py里添加如下代码: from scrapy.http.response.html im...
selenium 拦截网站非ajax数据,爬虫处理js
WebDriver driver = new MyPhantomJSDriver(sessionId, 48105); driver.findElement(By.name("username")).sendKeys(name); driver.findElement(By.name("idcard")).sendKeys(idCard); driver.findElement(By.
网页抓屏工具 phantomjs
phantomjs 的功能很强大,做爬虫应用,抓取网页数据、网页截屏、页面访问自动化等。
爬虫-java更改请求头
package view; import org.apache.http.HttpResponse; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.HttpClients; import org.
无界面爬虫驱动phantomjs
python爬虫技术用到的phantomjs驱动,无界面化的浏览器访问
关于PhantomJS安装的一些问题
0.首先下载,然后将phantomjs.exe的根目录添加至环境变量里面,不添加环境变量可以像下面一样使用可执行路径 1.安装selenium,调用它可在后台运行,不显示窗口 from selenium import webdriver import time driver = webdriver.PhantomJS(executable_path=r'phantomjs.exe') # ...
一起学爬虫 Node.js 爬虫篇(三)使用 PhantomJS 爬取动态页面
版权声明:本文为 wintersmilesb101 -(个人独立博客– http://wintersmilesb101.online 欢迎访问)博主原创文章,未经博主允许不得转载。 今天我们来学习如何使用 PhantomJS 来抓取动态网页,至于 PhantomJS 是啥啊什么的,看这里 我们这里就不再讨论 PhantomJS 的入门基础了。下面正题今天我们来抓取网易新闻 http://news.1
Phantomjs模拟滑动验证码
好像挺久之前就看到滑动验证码,然后最近又看见一些文章,好像不是很难,就试了一下 主要是使用PhantomJS模拟浏览器,然后识别滑动距离,再进行滑动。 也有人直接模拟数据包,不过看不太懂js就只能用模拟浏览器的方法了。 网上很多例子了就不多说 先截图获得带拼图的与原图进行反相 直接计算纵坐标上像素点灰度超过指定值的点的数量就得出坐标,接着模拟滑动就完成了。 只是移动的坐
Python爬虫实践-网易云音乐!没有版权又如何!照样爬取!
1、前言 最近,网易的音乐很多听不到了,刚好也看到很多教程,跟进学习了一下,也集大全了吧,本来想优化一下的,但是发现问题还是有点复杂,最后另辟捷径,提供了简单的方法啊! 本文主要参考 python编写GUI版网易云音乐爬虫 后改写,有兴趣的可以看看文章的GUI,了解更多知识~ 进群:548377875  即可获取数十套PDF哦! 2、Python + 爬虫 首先,说一下准备工作: Py...
python爬虫三:获取一个网易用户的所有图片(selenium+phantomjs)
python爬虫三:获取一个网易用户的所有图片(selenium+phantomjs)