webKit 实现爬虫 java 5C

做爬虫得时候遇到一个比较难搞定的网站,同事介绍说可以用webkit试下,我的具体需求是
模拟真实浏览器,取出登录之后的页面内容。
不知道webkit能否实现,有没有大神对webkit熟悉的。。。

0

4个回答

webkit和ie是两种浏览器的内核。
要模拟访问网站,我们一般不直接用浏览器内核(你又不是开发浏览器)
我们可以用webbrowser(C#、VB)、selenium(python)、JxBrowser(java)等。
因为上面说的就是在你的程序里调用真实的浏览器,除了验证码比较麻烦一点,别的和人操作都没有区别,人能做的,程序肯定能做。

0
caozhy
贵阳挖掘机马善福,自备车辆专业挖游泳池 回复fanfanfys: 你要”模拟真实浏览器“,但是这不是唯一的方式哦
大约一年之前 回复
fanfanfys
fanfanfys 而且我想要的效果不是调用本地浏览器,而是模拟,这样代码不管放到哪都可以运行,selenium试过,运行有点慢
大约一年之前 回复
fanfanfys
fanfanfys JxBrowser(java) 在无图型化环境下可以操作么?
大约一年之前 回复
fanfanfys
fanfanfys 对了,我忘说一点了,就是不管用什么技术,一定要在无图型化界面下可以操作的,因为程序做好之后肯定要放到linux服务器上的,
大约一年之前 回复

这里有一个我上次回答的,用webbrowser模拟浏览器查询的例子:https://ask.csdn.net/questions/690252

0
fanfanfys
fanfanfys 对了,我忘说一点了,就是不管用什么技术,一定要在无图型化界面下可以操作的,因为程序做好之后肯定要放到linux服务器上的,
大约一年之前 回复

http://webmagic.io/docs/zh/
配合
phantomjs

完美!

0
fanfanfys
fanfanfys 靠谱,我研究下,3Q
大约一年之前 回复

你说selenium慢,你的操作是否正确??
推荐看看
https://blog.csdn.net/android_app/article/details/80454623

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Java实现简单爬虫
爬虫 爬虫可以理解为一个从第三方网站获取其数据的技术。 关于爬虫语言 博主是只是对Java有一定浅显的见解,对于很多语言不敢造次。在这里说一下关于爬虫常用的语言。最常用的爬虫语言是python,python有完善的爬虫框架,获取网页数据十分方便,而爬虫时候很多时候都会出现较长时间的延迟和等待,python的多线程、进程模型比较完善所以多数人都会用python进行爬虫。 本文简单聊一下J...
java实现机器人爬虫
          http://zhidao.baidu.com/question/2265569797988281948.html?sort=6&old=1&afterAnswer=1#here   http://zhidao.baidu.com/question/981916929181911379.html?oldq=1
java实现爬虫软件
以前一直以为只有Python可以做爬虫,好羡慕那些会Python的同学。。。但是却忽略自己已经掌握了一名灰常厉害的江湖绝学,java大法!!!  好了废话不多说开始教程: 一、首先开始理思路 (一)、爬虫软件其实就是一个把网页下载下来的然后从里面挑选出我们想要的元素 所有技术的关键就是: 1、把网页缓存到内存 2、从里面挑出我们想要的内容 3、把挑选的内容保存到本地 二、发现难点
Java简单爬虫实现
最近闲来无事,就自己写了一个爬虫程序。可能有人会好奇,为什么不用python写呢?答案是:傲娇。我就傲娇的用java写了,怎么滴!其实我是用python写过的,不是说了闲来无事的嘛,用java写写又怎么滴? 首先说说爬虫思路: 1.找到需要爬取的网页。 2.分析网页上面的html元素 3.爬取解析自己想要的信息 话不多说,直接开干。 我觉得大家应该都比较关心房价的,那我们就从链家爬取房...
java 实现爬虫
抓取网站歌曲文件。
java实现的主题爬虫
本程序用java实现了一个简单的主题爬虫,用户可以通过指定初始网页和关键词来爬去相关网页,测试结果不错。
CDP4J爬虫、JAVA实现
pom依赖: <!-- cdp4j依赖 --> <dependency> <groupId>io.webfolder</groupId> <artifactId>cdp4j</artifactId> <version>2.2.1&am
java实现百度网盘爬虫
         项目镇楼本文的项目都在此处哦          工作嘛,就是不在需求中爆发,就在需求中灭亡。          最近接了个奇怪的需求。要用java实现百度网盘(有提取码的)下载。。我估么着就是url和提取码太多他懒得自己一个一个下载emmmmmm反正有需求就得看着折腾。         最开始寻思这种事情,可能目测得去官网查查SDK有木有。。。百度功能太多。。没看懂到底都是...
java爬虫实现
爬虫入门 手写一个Java爬虫 本文内容 涞源于  罗刚 老师的 书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的?  2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做什么的?  他的主要工作就是 跟据指定的url地址 去发送请求,获得响应, 然后解析响应 , 一方面从响应中查找出想要查找的数据,另一方面从响应中解析出新的URL...
java实现最基本爬虫
附: 1. Parsing and traversing a Document 2. jsoup API HtmlCommon.java package common; import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.util.Map; /** * Cr...
Java实现爬虫
爬虫(crawler):是一种按照一定的规则,自动抓取万维网信息的程序或者脚本 HttpClient方式 以get请求方式进行举例: 引入jar包:httpclient @Test public void test() throws Exception{ // 创建HttpClient对象 CloseableHttpClient httpClient ...
Java实现多线程爬虫
项目介绍 该项目是《网络程序设计》老师布置的一个作业,让完成: 给定一个网址,获取该网站中所有的图片(重要的,图标哪些就不算了),实现多线程下载,自动爬取。 我做的项目爬取的是孔夫子二手书官网的计算机类的所有书籍的图片:http://item.kongfz.com/Cjisuanji/ 知识储备 jsoup的使用 java线程池的使用 URL类、URLConnection类及流的处理 开...
java实现互联网爬虫
  一、 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫 二、 采集步骤: 1:分析采集内容       2:发送Http请求 解析请求返回元素 存储采集内容 分析采集内容 Demo:采集肖申克的救赎的影评 (标题、评论) ...
java多线程爬虫实现
先上做的结果吧:     [java] view plain copy print? 开始爬虫.........................................  当前有1个线程在等待  当前有2个线程在等待  当前有3个线程在等待  当前有4个线程在等待  当前有5个线程在等待  .....................   开始爬
01.爬虫java实现
本章节为大数据架构师课程的phoenix课程,大数据生态体系庞大,通过本章节phoenix的讲授,你可以轻松的掌握phoenix技术,掌握本节内容后可以为后续的大数据案例夯实基础,形成良好的大数据企业开发思维。 这套phoenix绝对三脚猫功夫,真正用心打磨出来,帮助更多的大数据技术爱好者少走弯路。n购买课程后加入qq群 831186576 (备注订单号后四位)
java爬虫实现数据抓取
这篇博客我们将用java来实现基本的爬虫数据抓取操作,基本思路就是通过java访问url,然后拿到返回的html文档,并用jsoup解析。 首先我们来看下需要抓取的页面,以我自己的csdn博客列表页面为例。我们将每篇博客的链接地址,文章标题以及摘要抓取出来。下面是代码实现:public class WhxCsdnCrawler { public static void main(Stri
Java 爬虫实现
爬虫的基本思路如下: 根据URl获取相应页面的html代码 利用正则匹配或者Jsoup等库解析html代码,提取需要的内容 将获取的内容持久化到数据库中 处理好中文字符的编码问题,可以采用多线程提高效率 参考: Java爬虫入门笔记 网页爬虫技术浅析 ...
java实现爬虫
爬虫
简单的java爬虫实现
去年中旬开始接触爬虫一直都是浅显带过 期间也写过 知乎爬虫和科技网站定向抓取及爬取整个互联网的爬虫 今天和大家分享一下第三个 及其实现方式和代码 早期的实现想法 附代码 关于爬虫其实理论上很简单 就是通过互联网上的超链接导航实现页面的调转与抓取 互联网的网也因此而来  我也会一步一步的将实现方式和想法展现出来 方便大家能够明白每一步要做什么应该怎么做 爬虫可以分为6个部分: 1.
java 实现爬虫(多线程)
1. 单线程爬虫import java.util.ArrayList;import java.util.List;import javax.annotation.Resource;import org.apache.http.HttpResponse;import org.apache.http.client.HttpClient;import org.apache.http.impl.clien...
java集成webkit浏览器
java集成webkit浏览器,内附详细Demo,注意64位需要用64位swt
爬虫采集-基于webkit核心的客户端Ghost.py [爬虫实例]
对与要时不时要抓取页面的我们来说,是痛苦的~由于目前的Web开发中AJAX、Javascript、CSS的大量使用,一些网站上的重要数据是由Ajax或Javascript动态生成的,并不能直接通过解析html页面内容就能获得(例如采用urllib2,mechanize、lxml、Beautiful Soup )。要实现对这些页面数据的爬取,爬虫必须支持Javacript、DOM、HTML解析。比如...
cockroach 爬虫:又一个 java 爬虫实现
cockroach 爬虫:又一个 java 爬虫实现 原文 简介 cockroach[小强] 当时不知道为啥选了这么个名字,又长又难记,导致编码的过程中因为单词的拼写问题耽误了好长时间。 这个项目算是我的又一个坑吧,算起来挖的坑多了去了,多一个不多少一个不少。 一个小巧、灵活、健壮的爬虫框架,暂且叫做框架吧。 简单到什么程度呢,几句话就可...
webKit等内核实现的webBrowser
多元化的webBrowser,不使用默认的IE内核。IE内核有很多缺陷。webKit的效果跟谷歌浏览器一样
Java爬虫,信息抓取的实现
Java爬虫,信息抓取的实现
利用java实现爬虫功能
这是个需要做的功课,暂时先立个贴,明天开始整理相关学习资料和个人理解!
java爬虫代理如何实现?
如题,如何用java实现爬虫代理
java实现爬虫改变人生!
写代码让你怀疑人生,那爬虫定会改变你人生,爬取你需要的torrent,当然高级点的网站都反爬虫。下面就爬取一下电影的网站http://www.xunleigang.net/html/aiqing/1、Elements links=doc.select(".bcr_box dl");2、Elements links21 = link.getElementsByTag("dt");
Java实现一个简单的爬虫
前言: 这篇文章是我看了团长的一篇关于Java爬虫的文章之后,写的一个练习。代码中,实现了对京东网站的数据爬取、分析。 程序结构图如下:  说明,关于代码的说明在代码中已经表述的很明白,这里不过多叙述。 JdongMain是程序的入口、JdongBook对应京东上出售的书籍、URLHandle是对URL和client的处理,通过它返回经过加工的数据、HTTPUtils发送真正的HTTP请求...
简单爬虫 Java实现 多线程
Java 爬虫 spider crawder web
JAVA实现一个简单的爬虫
网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。 用java打造属于自己的爬虫 网络上的图片太多 一个一个的保存实在太浪费时间 基于此 就使用了java做了一个小工具 功能是文件的复制 以及 网络上图片的下载 首先是封装一个IOUtlis类方法,用于实现文件的复制和文件传输流的关闭 package hh; import java.io.FileInputStrea...
Java爬虫,信息抓取的实现
http://blog.csdn.net/lmj623565791/article/details/23272657
java实现响应式布局爬虫技术
Java 网络爬虫实现网络抓取图片数据、流式布局、响应式布局、懒加载、动态切换加载技术
【Java】WebMagic实现的最基本的爬虫
Webmagic的简单入门示例
WebKit 技术内幕之浏览器与WebKit内核
微信公众号:爱写bugger的阿拉斯加如有问题或建议,请后台留言,我会尽力解决你的问题。 前言 此文章是我最近在看的【WebKit 技术内幕】一书的一些理解和做的笔记。而【WebKit 技术内幕】是基于 WebKit 的 Chromium 项目的讲解。 第一章 浏览器和浏览器内核 WebKit 内核是苹果2005年先开发并提出开源的,后面...
java爬虫爬虫
在com.zhy.spider.test包下有个测试类
Java爬虫~~爬虫伪代码
之前一直有个同事想让我教教他怎么把csdn上的数据爬下来的,我在这里就简单的说一下~~话说做爬虫我也不是专业的~~业余的~~有什么问题帮我指正就好~~233333为什么是伪代码呢?就是给大家把原理讲讲~~真实代码我就不在这里写了~~大家自己琢磨去吧~~需要如下几个工具 1、缓存:我采用的是redis~~经常做后台习惯用了~~23333 2、dom解析工具 3、网络链接工具话说后面两个我直接就
求webkit部分slot的实现
请帮忙实现一下这三个slot,谢谢!!!rn[code=C/C++]rnQObject::connect(ui->loadButton,SIGNAL(clicked()),this,SLOT(loadPageSlot()));rnQObject::connect(ui->webView,SIGNAL(titleChanged(QString)),this,SLOT(setCurrentPageTitleSlot(QString))); QObject::connect(ui->webView,SIGNAL(urlChanged(QUrl)),this,SLOT(setCurrentPageUrlSlot(QUrl)));rn[/code]rnrn
java实现的爬虫算法 web版本的实现
这是一个使用java编写的爬虫程序,可以用来爬去百度贴吧的帖子内容,可以爬到两层,对初学者有很好的帮助意义。本项目里包含了完整的源码和配置文件。
4493mote,Jsoup爬虫,java爬虫,美女爬虫
一款使用Jsoup解析网页得JAVA爬虫,用来爬取美图,美女图片

相似问题

3
android webkit 把所有灰色字体都改为黑色,如何修改呢?
4
求助:Ubuntu16.04交叉编译Qt4.8.6出错
2
微信扫码下载安装iOS和Android js代码问题
2
插件中的 WebView 發生资源 NotFoundException
1
webengine访问的网页内容如何做磁盘缓存,缓存到本地
1
chrome自定义滚动条样式改变鼠标光标无效求解!!
1
javascript 宽度的问题,不固定写定DIV宽度。
1
移动端显示12号以下的文字,放大再缩小后下面多余的空间怎么去掉?
1
keyframes 背景轮播 首次加载轮播出现闪烁如何解决
0
请问我页面两个父辈div,如果都是用float: left, 然后设置margin,为什么第二个div内部就会多出来一个缝隙
1
在苹果5移动设备上使用jquery事件时无效
0
AppCrawler在登录之后报错:“ 需要位置路径, 但遇到以下标记: ”这个怎么解,求各路大神解答
0
复制pre中的内容然后粘贴会把当前的pre标签也粘贴一遍,如何解决?
2
前端新手的,css样式问题,求指教
1
如何解决下拉菜单被遮罩(flex布局,bootstrap导航栏组件)大神救救我
1
求助!!SpringBoot+X-admin 动态表格页面无法显示
2
spring boot打开网页错误500,错误信息如下,怎么解决?
0
360浏览器切换Iframe的问题
0
如何用JavaScript实现方位角计算并且调用指针指示角度?
3
求助大佬,怎么让鼠标经过li范围的时候就变色,而不是经过li中文字的时候变色!