采用java爬虫或phantomjs一部分百度网盘访问不了

本人小白,最近我在写一个爬虫遇到了一个问题,访问百度网盘的时候短链接地址无法访问,比如http://yun.baidu.com/s/1i4Pa7rv, 但后来我又尝试访问了几个长连接的地址都可以获取到网页源代码,我用phantomjs来访问也是如此,请问这种情况有没有人遇到,求大神指点
phantomjs代码如下:

 var page = require('webpage').create();
page.settings.userAgent = 'Mozilla/4.0 (compatible; MSIE 6.1; Windows XP)';
phantom.outputEncoding="gbk";
page.open('https://yun.baidu.com/s/1i4Pa7rv', function (status) {
    if (status == 'success') {

        console.log(page.title);
    } else {
        console.log('cannot open page');
    }
    phantom.exit();
});

运行结果如下:

图片说明

0

2个回答

用fiddler抓包看下,返回什么,是不是404

0

请问你解决了吗,我也遇到了

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
phantomjs.exe
phantomjs highcarts export 用到
java爬虫 用PhantomJS模拟浏览器
首先刚开始的时候,遇到了个问题,java调用代码没法启动phantomjs。然后我重新下载了一波,冲配置环境变量,重新写了下。我是windows7,所以就是java + phantomjs ,环境windows7 至于为什么要用这个,因为,爬虫有时候爬到页面源代码后发现并不能获取到想要的数据,所以需要模拟浏览器,获取浏览器获取的内容里面的数据。 对了,我是在springmvc上面搞得数据处理,...
Java爬虫——phantomjs抓取ajax动态加载网页
(说好的第二期终于来了 >_ 1、phantomjs介绍 phantomjs实现了一个无界面的webkit浏览器。虽然没有界面,但dom渲染、js运行、网络访问、canvas/svg绘制等功能都很完备,在页面抓取、页面输出、自动化测试等方面有广泛的应用。 官网: http://phantomjs.org/ 2、问题分析 上期采用CloseableHttpClient未能抓取到我们想要的
Java网络爬虫(十三)--PhantomJs的使用及性能优化
先说点题外话吧,在我刚开始学习爬虫的时候,有一次一个学长给了我一个需求,让我把京东图书的相关信息抓取下来。恩,因为真的是刚开始学习爬虫,并且是用豆瓣练得手,抓取了大概500篇左右的影评吧,然后存放到了mysql中,当时觉得自己厉害的不行,于是轻松的接下了这个需求。。。 然后信心满满的开始干活。。首先查看网页源代码。。。???我需要的东西源代码里面没有!!!然后去问了学长。学长给我说,这是AJAX
使用PhantomJS实现模拟登陆(Java爬虫)
记录了利用PhantomJS+Java进行模拟登陆的过程,同时介绍了PhantomJS,并记录了开发过程中遇到的问题
爬虫知识点(ajax异步加载,JavaScript 动态刷新,phantomjs + selenium模拟登陆)
JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 Ajax  当你访问一个网页时 鼠标向下滑 数据不断的更新而http网址没有变化,那么这个网页就利用了ajax异步加载技术 我们与网站服务器通信的唯一方式,就是发出 HTTP 请求获取新页面
phantomjs爬虫在docker下不能正常运行的问题
版权声明:可以任意转载,转载时请标明文章原始出处-xjtushilei和作者信息:石磊 背景和北京xx教育合作的知识图谱项目,因为xx升级了docker镜像的管理,撤掉了之前的docker,导致服务全部瘫痪。虽然立马就锁定了问题,还是记录一下吧,省的所有在centos下进行爬虫的人debug时候找不到原因。phantomjs一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只
使用phantomjs访问网站,高度自定义headers
由于在遇到的一个网站需要cookie才能访问成功,所以研究了一下如何给phantomjs设置cookie。既然能设置cookie,那么其余的头信息应该也能设置,下面就给大家说明如何实现。 下面是我们要附带给phantomjs浏览器的headers信息。 headers = {     'accept': "text/html,application/xhtml+xml,applicat
selenium+phantomjs+java
phantomjs,所有依赖项都已打包,导入eclipse直接运行
java方式selenium+phantomjs动态爬虫入门案例
public void test1(){ //System.setProperty("webdriver.firefox.bin", "D:/software/Mozilla Firefox/firefox.exe"); String path = demo1.class.getClassLoader().getResource("").getPath()+"phantomjs-...
爬虫项目(二)用phantomjs做爬虫
这几天有事没怎么研究,最开始用的java爬虫想爬取携程,结果失败告终。 主要表现在: 1.抓取不到对应的标签,jsoup语法对应的element个数是0,推测是因为直接用get方法获取机票信息时,该网站不显示和价格信息有关的elemengt,故抓取不到。 2.抓取到的数据是错误的。价格和真正标价的相去甚远。 据说qunar和xiecheng之类的网站在反爬虫上下了些功夫。为了达到目标我也进
防止爬虫被ban,随机更换代理IP,随机User-Agent,及setting配置,PhantomJS抓取JS网页
当有CONCURRENT_REQUESTS,没有DOWNLOAD_DELAY 时,服务器会在同一时间收到大量的请求。 当有CONCURRENT_REQUESTS,有DOWNLOAD_DELAY 时,服务器不会在同一时间收到大量的请求。 两种方法能够使 requests 不被过滤:  1. 在 allowed_domains 中加入 url  2. 在 scrapy.Request() 函数中将...
解决centos下phantomJs无法访问https的问题
今天遇到了一个很尴尬的问题,在window上运行正常的phantomJs,结果到linux上就无法访问。如下:        而http协议的一切正常。然后开始找原因:     试了下 curl https://www.baidu.com是可以正常返回的。说明问题不在系统,而在于linux版本的phantomJs上。     个人猜想是Https安全协议的问题,我知道的一些协议如tlsv1.0  ...
爬虫phantomjs爬取网页中文乱码
下面是解决了乱码问题的代码 public static void main(String[] args) { List products = spiderWebHq(" url地址 ", "D:\\soft\\java\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe --output-encoding=U
selenium phantomjs 实现新浪微博爬虫
''' Created on 2017年2月22日 @author: test ''' import time #phantomjs导入包 from selenium import webdriver #xpath from lxml.html.clean import Cleaner import random if __name__ == '__main__'
Python爬虫利器之PhantomJS的用法
前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了。所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。 其中有一个比较常用的工具,那就是 PhantomJS Full web stack No brow
Python爬虫——利用PhantomJS下载动态加载图片
Python爬虫——利用PhantomJS下载动态加载图片
web爬虫学习(五)——使用PhantomJS爬取数据
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。 我的公众号为:livandata
Jsoup爬虫之PhanTomJs工具类
用java的一款HTML解析器Jsoup爬取网页数据,有时候会碰到信息浏览器中有显示,但无法抓取信息的情况,这是因为该数据是由javascript元素加载完成事件而获取到的,这时候我们可以使用PhanTomJs工具模拟浏览器运行; PhanTomJs官网下载:http://phantomjs.org/download.html 话不多说,为大家带来该工具的依赖jar包,配置文件及工具类,可通过工具...
【python 爬虫】selenium爬虫模块 phantomjs如何加代理IP
phantomjs在初始化WebDriver时就没有留proxy参数 所以可以像下图一样改一下phantomjs类的源码,就可以在phantomjs中传入proxy参数了修改 下面的代码:class WebDriver(RemoteWebDriver): """ Wrapper to communicate with PhantomJS through Ghostdriver.
基于Python, Selenium, Phantomjs无头浏览器访问页面
引言: 在自动化测试以及爬虫领域,无头浏览器的应用场景非常广泛,本文将梳理其中的若干概念和思路,并基于代码示例其中的若干使用技巧。
使用selenium和phantomjs解决爬虫中对渲染页面的爬取
selenium+phantomjs,headerlesschrome 一.selenium+phantomjs 1.selenium是什么:是一个浏览器的自动化测试框架,通过selenium可以写代码,通过运行代码,可以让谷歌浏览器做自动化的工作。 实现: 1.安装:pip install selenium 演示:操作谷歌浏览器,其实操作的是谷歌浏览器的驱动,由驱动来驱动浏览器,既然这...
入手爬虫利器:phantomjs+selenium、自动填充文本框、自动点按钮
http://fund.eastmoney.com/fund.html#os_0;isall_0;ft_;pt_1前面我们通过『眼球』的方式,发现要抓取第二页的数据,是一段js脚本生成的。 我们希望能够启动获取到 第二页、第三页的脚本地址是什么?phantomjs好比是一个没有界面的浏览器内核,可以用它来执行脚本。隐形的执行css选择、DOM操作等。官网地址: http://phantomjs.o
java调用phantomjs采集ajax加载生成的网页
日前有采集需求,当我把所有的对应页面的链接都拿到手,
phantomJS linux 环境下 直接可执行文件
phantomJS网络爬虫 linux 环境下 直接可执行文件,J2EE等服务器可直接调用。
PhantomjsDriver 找不到可用端口 解决办法
采用phantomjs driver执行任务时抛异常‘java.lang.RuntimeException: Unable to find a free port’。 首先查看linux 系统的端口范围: less /proc/sys/net/ipv4/ip_local_port_range 或 sysctl net.ipv4.ip_local_port_range
selenium与PhantomJSDriver整合 加速 网站爬取
在使用 PhantomJSDriver 的时候 ,因为每次start client 是每次爬取 数据非常 在 30 s 左右 ,对于 源码的研究 自己改造 了 ,其中关键代码 已贴出 package org.openqa.selenium.phantomjs; import java.io.IOException; import java.lang.reflect.Field; imp
java使用phantomJs抓取动态页面
1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/ 2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。 3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。
Python爬虫 selenium+PhantomJS 介绍、安装、使用
之前用Java做过爬虫,也用到过selenium和PhantomJS。最近痴迷于python爬虫,将selenium+PhantomJS在python中的应用详细总结一下。 一、Selenium介绍 Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,...
【python】 利用phantomJS爬取腾讯动漫
利用phantomJS爬取漫画起名是随机字符串的腾讯动漫 from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities import time import sys import urllib import re reload(sys)...
爬虫Selenium+PhantomJS爬取动态网站图片信息(Python)
from urllib import request, error from requests import RequestException import lijzMD5 from lijzLog import * import requests import json, re, time, random, os from selenium import webdriver from bs4 ...
网页抓屏工具 phantomjs
phantomjs 的功能很强大,做爬虫应用,抓取网页数据、网页截屏、页面访问自动化等。
无界面爬虫驱动phantomjs
python爬虫技术用到的phantomjs驱动,无界面化的浏览器访问
简单的Selenium访问控制线程池
思路:频繁开关phantomJS进程比较耗费资源,所以需要维护一个线程池控制访问以减少内存消耗 1. 自定义操作CustomAction接口 public interface CustomAction { String action(WebDriver webDriver); } 2. WebDriverPool池 public class WebDriverPool {
无头浏览器,从phantomjs到webkit4j
一、从浏览器说起无头浏览器即headless browser,是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有,只是看不到界面而已。浏览器内核 Webkit:目前最主流的浏览器内核,webkit是苹果公司开源的浏览器内核,其前身是KHTML。基于Webkit的浏览器很多,比如Safari,Chrome,Opera Gecko:是Firefox浏览器的内核 Trident:是IE浏览
一起学爬虫 Node.js 爬虫篇(三)使用 PhantomJS 爬取动态页面
版权声明:本文为 wintersmilesb101 -(个人独立博客– http://wintersmilesb101.online 欢迎访问)博主原创文章,未经博主允许不得转载。 今天我们来学习如何使用 PhantomJS 来抓取动态网页,至于 PhantomJS 是啥啊什么的,看这里 我们这里就不再讨论 PhantomJS 的入门基础了。下面正题今天我们来抓取网易新闻 http://news.1
004_Java实现百度网盘爬虫
百度网盘是个好东西,有许多的资源,对我们IT行业来说,更看中的就是学习资源了。 因为百度网盘并没有提供搜索的服务,所以我们搜索资源都只能依靠第三方软件进行搜索。 今天让我们自己实现一个百度网盘的爬虫网站,坐等收钱哦~~~ 现在的百度网盘爬虫有两种: 1. 基于google的爬虫 不需要数据库,不需要自己写爬虫,只需要调用google的接口,当然还需要能科学上网。 2.
爬虫工具:虚拟机Selenium和PhantomJS,ChromeDriver 镜像安装教程
虚拟机Ubuntu 16.04中安装: 1.安装Selenium命令:pip install Selenium 2.安装PhantomJS命令:sudo apt install PhantomJS 3.找到Ubuntu中谷歌所对应的的版本号: 看到网上基本没有最新的chromedriver与chrome的对应关系表,便兴起整理了一份如下,希望
java实现百度网盘爬虫
         项目镇楼本文的项目都在此处哦          工作嘛,就是不在需求中爆发,就在需求中灭亡。          最近接了个奇怪的需求。要用java实现百度网盘(有提取码的)下载。。我估么着就是url和提取码太多他懒得自己一个一个下载emmmmmm反正有需求就得看着折腾。         最开始寻思这种事情,可能目测得去官网查查SDK有木有。。。百度功能太多。。没看懂到底都是...
python进行爬虫时phantomjs插件的安装
python爬虫需要用到phantomjs,这里有phantomjs的安装以及一些简单的应用
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 java课程百度网盘 java课程 百度网盘